MapReduce的Shuffle過程

Shuffle的正常意思是洗牌或弄亂，Hadoop官網(wǎng)提供了下圖來描述該過程：

shuffle過程

但是實際過程比上圖描述的復(fù)雜得多。Shuffle的大致范圍就是： 怎樣把map task的輸出結(jié)果有效地傳送到reduce端。也可以這樣理解， Shuffle描述著數(shù)據(jù)從map task輸出到reduce task輸入的這段過程。

假設(shè)以WordCount為例，并假設(shè)它有8個map task和3個reduce task。從上圖看出，Shuffle過程橫跨map與reduce兩端，所以下面我也會分兩部分來展開。

一、Map端

map端的shuffle情況

整個流程分了四步。簡單些可以這樣說，每個map task都有一個內(nèi)存緩沖區(qū)，存儲著map的輸出結(jié)果，當(dāng)緩沖區(qū)快滿的時候需要將緩沖區(qū)的數(shù)據(jù)以一個臨時文件的方式存放到磁盤，當(dāng)整個map task結(jié)束后再對磁盤中這個map task產(chǎn)生的所有臨時文件做合并，生成最終的正式輸出文件，然后等待reduce task來拉數(shù)據(jù)。

當(dāng)然這里的每一步都可能包含著多個步驟與細(xì)節(jié)，下面我對細(xì)節(jié)來一一說明：

1、在map task執(zhí)行時，它的輸入數(shù)據(jù)來源于HDFS的block，當(dāng)然在MapReduce概念中，map task只讀取split。Split與block的對應(yīng)關(guān)系可能是多對一，默認(rèn)是一對一。在WordCount例子里，假設(shè)map的輸入數(shù)據(jù)都是像“aaa”這樣的字符串。

2、在經(jīng)過mapper的運行后，我們得知mapper的輸出是這樣一個key/value對： key是“aaa”， value是數(shù)值1。因為當(dāng)前map端只做加1的操作，在reduce task里才去合并結(jié)果集。前面我們知道這個job有3個reduce task，到底當(dāng)前的“aaa”應(yīng)該交由哪個reduce去做呢，是需要現(xiàn)在決定的。

MapReduce提供Partitioner接口，它的作用就是根據(jù)key或value及reduce的數(shù)量來決定當(dāng)前的這對輸出數(shù)據(jù)最終應(yīng)該交由哪個reduce task處理。默認(rèn)對key hash后再以reduce task數(shù)量取模。默認(rèn)的取模方式只是為了平均reduce的處理能力，如果用戶自己對Partitioner有需求，可以訂制并設(shè)置到j(luò)ob上。

在我們的例子中，“aaa”經(jīng)過Partitioner后返回0，也就是這對值應(yīng)當(dāng)交由第一個reducer來處理。接下來，需要將數(shù)據(jù)寫入內(nèi)存緩沖區(qū)中，緩沖區(qū)的作用是批量收集map結(jié)果，減少磁盤IO的影響。我們的key/value對以及Partition的結(jié)果都會被寫入緩沖區(qū)。當(dāng)然寫入之前，key與value值都會被序列化成字節(jié)數(shù)組。

3、這個內(nèi)存緩沖區(qū)是有大小限制的，默認(rèn)是100MB。當(dāng)map task的輸出結(jié)果很多時，就可能會撐爆內(nèi)存，所以需要在一定條件下將緩沖區(qū)中的數(shù)據(jù)臨時寫入磁盤，然后重新利用這塊緩沖區(qū)。這個從內(nèi)存往磁盤寫數(shù)據(jù)的過程被稱為Spill，中文可譯為溢寫，字面意思很直觀。這個溢寫是由單獨線程來完成，不影響往緩沖區(qū)寫map結(jié)果的線程。溢寫線程啟動時不應(yīng)該阻止map的結(jié)果輸出，所以整個緩沖區(qū)有個溢寫的比例spill.percent。這個比例默認(rèn)是0.8，也就是當(dāng)緩沖區(qū)的數(shù)據(jù)已經(jīng)達(dá)到閾值（buffer size * spill percent = 100MB * 0.8 = 80MB），溢寫線程啟動，鎖定這80MB的內(nèi)存，執(zhí)行溢寫過程。Map task的輸出結(jié)果還可以往剩下的20MB內(nèi)存中寫，互不影響。

當(dāng)溢寫線程啟動后，需要對這80MB空間內(nèi)的key做排序(Sort)。排序是MapReduce模型默認(rèn)的行為，這里的排序也是對序列化的字節(jié)做的排序。

在這里我們可以想想，因為map task的輸出是需要發(fā)送到不同的reduce端去，而內(nèi)存緩沖區(qū)沒有對將發(fā)送到相同reduce端的數(shù)據(jù)做合并，那么這種合并應(yīng)該是體現(xiàn)是磁盤文件中的。從官方圖上也可以看到寫到磁盤中的溢寫文件是對不同的reduce端的數(shù)值做過合并。所以溢寫過程一個很重要的細(xì)節(jié)在于，如果有很多個key/value對需要發(fā)送到某個reduce端去，那么需要將這些key/value值拼接到一塊，減少與partition相關(guān)的索引記錄。

在針對每個reduce端而合并數(shù)據(jù)時，有些數(shù)據(jù)可能像這樣：“aaa”/1， “aaa”/1。對于WordCount例子，就是簡單地統(tǒng)計單詞出現(xiàn)的次數(shù)，如果在同一個map task的結(jié)果中有很多個像“aaa”一樣出現(xiàn)多次的key，我們就應(yīng)該把它們的值合并到一塊，這個過程叫reduce也叫combine。但MapReduce的術(shù)語中，reduce只指reduce端執(zhí)行從多個map task取數(shù)據(jù)做計算的過程。除reduce外，非正式地合并數(shù)據(jù)只能算做combine了。其實大家知道的，MapReduce中將Combiner等同于Reducer。

如果client設(shè)置過Combiner，那么現(xiàn)在就是使用Combiner的時候了。將有相同key的key/value對的value加起來，減少溢寫到磁盤的數(shù)據(jù)量。

Combiner會優(yōu)化MapReduce的中間結(jié)果，所以它在整個模型中會多次使用。那哪些場景才能使用Combiner呢？從這里分析，Combiner的輸出是Reducer的輸入，Combiner絕不能改變最終的計算結(jié)果。所以從我的想法來看，Combiner只應(yīng)該用于那種Reduce的輸入key/value與輸出key/value類型完全一致，且不影響最終結(jié)果的場景。比如累加，最大值等。Combiner的使用一定得慎重，如果用好，它對job執(zhí)行效率有幫助，反之會影響reduce的最終結(jié)果。

4、每次溢寫會在磁盤上生成一個溢寫文件，如果map的輸出結(jié)果真的很大，有多次這樣的溢寫發(fā)生，磁盤上相應(yīng)的就會有多個溢寫文件存在。當(dāng)map task真正完成時，內(nèi)存緩沖區(qū)中的數(shù)據(jù)也全部溢寫到磁盤中形成一個溢寫文件。最終磁盤中會至少有一個這樣的溢寫文件存在(如果map的輸出結(jié)果很少，當(dāng)map執(zhí)行完成時，只會產(chǎn)生一個溢寫文件)，因為最終的文件只有一個，所以需要將這些溢寫文件歸并到一起，這個過程就叫做Merge。Merge是怎樣的？如前面的例子，“aaa”從某個map task讀取過來時值是5，從另外一個map 讀取時值是8，因為它們有相同的key，所以得merge成group。什么是group。對于“aaa”就是像這樣的：{“aaa”, [5, 8, 2,]}，數(shù)組中的值就是從不同溢寫文件中讀取出來的，然后再把這些值加起來。請注意，因為merge是將多個溢寫文件合并到一個文件，所以可能也有相同的key存在，在這個過程中如果client設(shè)置過Combiner，也會使用Combiner來合并相同的key。

至此，map端的所有工作都已結(jié)束，最終生成的這個文件也存放在TaskTracker夠得著的某個本地目錄內(nèi)。每個reduce task不斷地通過RPC從JobTracker那里獲取map task是否完成的信息，如果reduce task得到通知，獲知某臺TaskTracker上的map task執(zhí)行完成，Shuffle的后半段過程開始啟動。

二、reduce端

簡單地說，reduce task在執(zhí)行之前的工作就是不斷地拉取當(dāng)前job里每個map task的最終結(jié)果，然后對從不同地方拉取過來的數(shù)據(jù)不斷地做merge，也最終形成一個文件作為reduce task的輸入文件。見下圖：

reduce端shuffle

如map 端的細(xì)節(jié)圖，Shuffle在reduce端的過程也能用圖上標(biāo)明的三點來概括。當(dāng)前reduce copy數(shù)據(jù)的前提是它要從JobTracker獲得有哪些map task已執(zhí)行結(jié)束，這段過程不表，有興趣的朋友可以關(guān)注下。Reducer真正運行之前，所有的時間都是在拉取數(shù)據(jù)，做merge，且不斷重復(fù)地在做。如前面的方式一樣，下面我也分段地描述reduce 端的Shuffle細(xì)節(jié)：

1、Copy過程
簡單地拉取數(shù)據(jù)。Reduce進(jìn)程啟動一些數(shù)據(jù)copy線程(Fetcher)，通過HTTP方式請求map task所在的TaskTracker獲取map task的輸出文件。因為map task早已結(jié)束，這些文件就歸TaskTracker管理在本地磁盤中。

2、Merge階段
這里的merge如map端的merge動作，只是數(shù)組中存放的是不同map端copy來的數(shù)值。Copy過來的數(shù)據(jù)會先放入內(nèi)存緩沖區(qū)中，這里的緩沖區(qū)大小要比map端的更為靈活，它基于JVM的heap size設(shè)置，因為Shuffle階段Reducer不運行，所以應(yīng)該把絕大部分的內(nèi)存都給Shuffle用。這里需要強調(diào)的是，merge有三種形式：
1)內(nèi)存到內(nèi)存
2)內(nèi)存到磁盤
3)磁盤到磁盤。
默認(rèn)情況下第一種形式不啟用，讓人比較困惑，是吧。當(dāng)內(nèi)存中的數(shù)據(jù)量到達(dá)一定閾值，就啟動內(nèi)存到磁盤的merge。與map 端類似，這也是溢寫的過程，這個過程中如果你設(shè)置有Combiner，也是會啟用的，然后在磁盤中生成了眾多的溢寫文件。第二種merge方式一直在運行，直到?jīng)]有map端的數(shù)據(jù)時才結(jié)束，然后啟動第三種磁盤到磁盤的merge方式生成最終的那個文件。

3、Reducer的輸入文件
不斷地merge后，最后會生成一個“最終文件”。為什么加引號？因為這個文件可能存在于磁盤上，也可能存在于內(nèi)存中。對我們來說，當(dāng)然希望它存放于內(nèi)存中，直接作為Reducer的輸入，但默認(rèn)情況下，這個文件是存放于磁盤中的。當(dāng)Reducer的輸入文件已定，整個Shuffle才最終結(jié)束。然后就是Reducer執(zhí)行，把結(jié)果放到HDFS上。

最后編輯于：2017.12.11 02:25:06

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,182評論 6贊 543
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 99,489評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事?！?“怎么了？”我有些...
開封第一講書人閱讀 178,290評論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,776評論 1贊 317
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點故事閱讀 72,510評論 6贊 412
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 55,866評論 1贊 328
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,860評論 3贊 447
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 43,036評論 0贊 290
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 49,585評論 1贊 336
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 41,331評論 3贊 358
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,536評論 1贊 374
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,058評論 5贊 363
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 44,754評論 3贊 349
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,154評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,469評論 1贊 295
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,273評論 3贊 399
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 48,505評論 2贊 379

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

MapReduce的Shuffle過程

MapReduce的Shuffle過程

一、Map端

二、reduce端

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

MapReduce的Shuffle過程

一、Map端

二、reduce端

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

一、Map端