Spark-Shuffle詳細過程參考

MapReduce的shuffle的計算過程是在executor中劃分mapper與reducer,可以作為對比參考。

Spark的Shuffle中有兩個重要的壓縮參數(shù):

設置spark.shuffle.compress=true:是否將會將shuffle中outputs的過程進行壓縮
可將spark.io.compression.codec 編碼器設置數(shù)據(jù)壓縮格式。
通過spark.shuffle.manager 來設置shuffle時的排序算法,有hash,sort,tungsten-sort。(用hash會快一點,因為不需要排序)

Hash Shuffle 輸出中間數(shù)據(jù)

使用hash散列有很多缺點,主要是因為每個Map task都會為每個reduce生成一份文件,所以最后就會有M * R個文件數(shù)量,與executor數(shù)量和core數(shù)量沒有關系。那么如果在比較多的Map數(shù)量和Reduce數(shù)量的情況下就會出問題,輸出緩沖區(qū)的大小,系統(tǒng)中打開文件的數(shù)量,創(chuàng)建和刪除所有這些文件的速度都會受到影響。如下圖:

M*R個中間小文件

這里有一個優(yōu)化的參數(shù)spark.shuffle.consolidateFiles,默認為false。當設置成true時,會對mapper output時的文件進行合并。如果你集群有E個executors(“-num-excutors”)以及C個cores("-executor-cores”),以及每個task有T個CPUs(“spark.task.cpus”),那么總共的execution的slot在集群上的個數(shù)就是E * C / T(也就是executor個數(shù)×CORE的數(shù)量/CPU個數(shù))個,那么shuffle過程中所創(chuàng)建的文件就為E * C / T * R(也就是executor個數(shù) × core的個數(shù)/CPU個數(shù)×Reduce個數(shù))個。

#補充說明:spark.task.cpus默認值為1,表示number of cores to allocate for each task。

文獻中都寫的太過公式化,此處用通俗易懂的形式闡述下。就好比總共的并行度是20(5個executor,每個executor有4個core) ?Map階段會將數(shù)據(jù)寫入磁盤,當它完成時,他將會以Reduce的個數(shù)來生成文件數(shù)。那么每個executor就只會計算core的數(shù)量/spark.task.cpus個數(shù)的tasks。如果task數(shù)量大于總共集群并行度,那么將開啟下一輪輪詢執(zhí)行。HashShuffle的執(zhí)行速度較快,因為沒有再對中間結果進行排序,減少了reduce打開文件時的性能消耗。

當數(shù)據(jù)是經(jīng)過序列化以及壓縮的,重新讀取文件時,數(shù)據(jù)將進行解壓縮與反序列化,這里reduce端數(shù)據(jù)的拉取有個參數(shù)spark.reducer.maxSizeInFlight(默認為48MB),它將決定每次數(shù)據(jù)從遠程的executors中拉取大小。這個拉取過程是由5個并行的request,從不同的executor中拉取過來,從而提升了fetch的效率。 如果你加大了這個參數(shù),那么reducers將會請求更多的文數(shù)據(jù)進來,它將提高性能,但是也會增加reduce時的內(nèi)存開銷

Sort Shuffle 輸出中間數(shù)據(jù)

Sort Shuffle如同hash shuffle的Map輸出數(shù)據(jù)到磁盤,Reduce拉取數(shù)據(jù)的一個性質(zhì),當在進行SortShuffle時,總共的Reducers要小于spark.shuffle.sort.bypassMergeThrshold(默認為200),將會執(zhí)行回退計劃,使用HashShuffle將數(shù)據(jù)寫入單獨的文件中,然后將這些小文件聚集到一個文件中,從而加快了效率。(實現(xiàn)自BypassMergeSortShuffleWriter中)

那么它的實現(xiàn)邏輯是在Reducer端合并Mappers的輸出結果。Spark在reduce端的排序是用了TimSort,它就是在reduce前,提前用算法進行了排序。那么用算法的思想來說,合并的M*N個元素進行排序,那么其復雜度為O(MNlogM),具體算法不講了。

隨之,當你沒有足夠的內(nèi)存保存map的輸出結果時,在溢出前,會將它們spill到磁盤,那么緩存到內(nèi)存的大小便是?spark.shuffle.memoryFraction * spark.shuffle.safetyFraction。默認的情況下是”JVM Heap Size * 0.2 * 0.8 =?JVM Heap Size * 0.16”。需要注意的是,當你多個線程同時在一個executor中運行時(spark.executor.cores/spark.task.cpus 大于1的情況下),那么map output的每個task將會擁有 “JVM Heap Size * spark.shuffle.memoryFraction * spark.shuffle.safetyFraction?/?spark.executor.cores * spark.task.cpus。

使用此種模式,會比使用hashing要慢一點,可通過bypassMergeThreshold找到集群的最快平衡點。

Tungsten Sort 輸出中間數(shù)據(jù)

使用此種排序方法的優(yōu)點在于,操作的二進制數(shù)據(jù)不需要進行反序列化。它使用 sun.misc.Unsafe模式進行直接數(shù)據(jù)的復制,因為沒有反序列化,所以直接是個字節(jié)數(shù)組。同時,它使用特殊的高效緩存器ShuffleExtemalSorter壓記錄與指針以及排序的分區(qū)id.只用了8 Bytes的空間的排序數(shù)組。這將會比使用CPU緩存要效率。

每個spill的數(shù)據(jù)、指針進行排序,輸出到一個索引文件中。隨后將這些partitions再次合并到一個輸出文件中。

#refer:https://0x0fff.com/spark-memory-management/

#

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,527評論 6 544
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,687評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,640評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,957評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,682評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 56,011評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,009評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,183評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,714評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 41,435評論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,665評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,148評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,838評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,251評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,588評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,379評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,627評論 2 380

推薦閱讀更多精彩內(nèi)容

  • spark-submit的時候如何引入外部jar包 在通過spark-submit提交任務時,可以通過添加配置參數(shù)...
    博弈史密斯閱讀 2,770評論 1 14
  • 1.1、 分配更多資源 1.1.1、分配哪些資源? Executor的數(shù)量 每個Executor所能分配的CPU數(shù)...
    miss幸運閱讀 3,199評論 3 15
  • Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎。Spark是UC Berkeley AM...
    大佛愛讀書閱讀 2,847評論 0 20
  • 前言 在大數(shù)據(jù)計算領域,Spark已經(jīng)成為了越來越流行、越來越受歡迎的計算平臺之一。Spark的功能涵蓋了大數(shù)據(jù)領...
    Alukar閱讀 558評論 0 6
  • 以下是武志紅在得到心理學課的觀點,對潛意識有很易懂直接的講述,摘錄如下: 內(nèi)在想象中,包括著意識和心理學潛意識。有...
    青木瓜99閱讀 1,825評論 0 2