withColumn / withColumnRenamed 是 spark 中常用的 API,可以用于添加新字段 / 字段重命名 / 修改字...

withColumn / withColumnRenamed 是 spark 中常用的 API,可以用于添加新字段 / 字段重命名 / 修改字...
上周調(diào)優(yōu)一個(gè)job 的時(shí)候發(fā)現(xiàn)一個(gè)join 意外的耗時(shí)間,如圖上一個(gè)join的shuffle操作就耗時(shí)1.2h. Input 才91GB, s...
上周在調(diào)優(yōu)一個(gè)job ,發(fā)現(xiàn)spark history 出現(xiàn)一個(gè)重復(fù)出現(xiàn)的job , 這個(gè)job 寫著Listing leaf files a...
背景 開源產(chǎn)品要想用的得心應(yīng)手免不了要根據(jù)公司的業(yè)務(wù)/場(chǎng)景對(duì)其做一些改造,如果直接在源碼的層面對(duì)其修改,當(dāng)下可能用的很省心,但后期與社區(qū)代碼的合...
Delta 0.5 已于上周發(fā)布,增加了不少新特性,這篇文章主要講解其 Presto Integration 和 Manifests 機(jī)制。該功...
Delta Lake 是什么?簡(jiǎn)單的說就是為大數(shù)據(jù)場(chǎng)景添加了事務(wù)功能,并且支持了 update/delete/merge into 等功能, D...
對(duì) spark 任務(wù)數(shù)據(jù)落地(HDFS) 碎片文件過多的問題的優(yōu)化實(shí)踐及思考。 背景 此文是關(guān)于公司在 Delta Lake 上線之前對(duì)Spar...
上週跑spark job 遇到 這樣一個(gè)語句 select cc_base_part1.*,cc_base_part1.nsf_cards_ra...
有時(shí)候會(huì)發(fā)現(xiàn)即使是讀取少量的數(shù)據(jù),啟動(dòng)延時(shí)可能也非常大,針對(duì)該現(xiàn)象進(jìn)行分析,并提供一些解決思路。 背景 Spark 一次查詢過程可以簡(jiǎn)單抽象為 ...
背景 在生產(chǎn)環(huán)境中,為了提高任務(wù)提交的響應(yīng)速度,我們研發(fā)了類似 Spark Jobserver 的服務(wù),各種類型的 spark 任務(wù)復(fù)用已經(jīng)啟動(dòng)...