mapreduce工作流程

https://wenku.baidu.com/view/929678ccf90f76c661371a87.html

一、MapReduce架構(gòu)組成

(主從架構(gòu))主要包含4個主要的組件:

》Client:將編寫的MapReduce程序提交給JobTracker端。在Hadoop內(nèi)部用“作業(yè)”(Job)表示MapReduce程序,每個作業(yè)會被分解成若干個Map/Reduce任務(wù)(Task)。

》JobTracker:主要負(fù)責(zé)資源監(jiān)控和作業(yè)調(diào)度。監(jiān)控所有TaskTracker與作業(yè)的健康狀況。

》TaskTracker:TaskTracker會周期性地通過Heartbeat將本節(jié)點(diǎn)上資源的使用情況和任務(wù)的運(yùn)行進(jìn)度匯報給JobTracker,同時接收J(rèn)obTracker發(fā)送過來的命令并執(zhí)行相應(yīng)的操作(如啟動新任務(wù)、殺死任務(wù)等)。TaskTracker使用“slot”等量劃分本節(jié)點(diǎn)上的資源量。“slot”代表計(jì)算資源(CPU、內(nèi)存等)。一個Task獲取到一個slot后才有機(jī)會運(yùn)行,而Hadoop調(diào)度器的作用就是將各個TaskTracker上的空閑slot分配給Task使用。slot分為Map slot和Reduce slot兩種,分別供Map Task和Reduce Task使用。TaskTracker通過slot數(shù)目(可配置參數(shù))限定Task的并發(fā)度。

》Task:(任務(wù))Task分為Map Task和Reduce Task兩種,均由TaskTracker啟動。

map task執(zhí)行流程:


reduce task執(zhí)行流程:


二、mapreduce的生命周期:(即作業(yè)提交到運(yùn)行結(jié)束的整個流程)


一共有5個步驟:

1、作業(yè)提交與初始化。JobClient。

2、任務(wù)調(diào)度與監(jiān)控。JobTracker。

3、任務(wù)運(yùn)行環(huán)境準(zhǔn)備。即TaskTracker啟動JVM和資源隔離。

4、任務(wù)執(zhí)行。TaskTracker為Task準(zhǔn)備好運(yùn)行環(huán)境后,便會啟動Task.

5、作業(yè)完成。所有Task執(zhí)行完畢后,整個作業(yè)執(zhí)行成功.

三、mapreduce編程接口體系結(jié)構(gòu):

mapreduce編程模型接口體系的結(jié)構(gòu)如下圖:

整個編程模型位于用戶應(yīng)用程序?qū)雍蚆apReduce執(zhí)行層之間。分為兩層:

第一層是最基本的Java API,主要有5個編程組件:分別是InputFormat、Mapper、Partitioner、Reducer和OutputFormat。Hadoop自帶了很多直接可用的InputFormat、Partitioner和OutputFormat,大部分情況下,用戶只需編寫Mapper和Reducer即可。

第二層是工具層,位于基本Java API之上,主要是為了方便用戶編寫復(fù)雜的MapReduce程序和利用其他編程語言增加MapReduce計(jì)算平臺的兼容性而提出來的。在該層中,主要提供了4個編程工具包。 ? ? ? ? ? ? ??

?JobControl:方便用戶編寫有依賴關(guān)系的作業(yè),這些作業(yè)往往構(gòu)成一個有向圖,所以通常稱為DAG(Directed Acyclic Graph)作業(yè),如第2章中的樸素貝葉斯分類算法實(shí)現(xiàn)便是4個有依賴關(guān)系的作業(yè)構(gòu)成的DAG。

?ChainMapper/ChainReducer:方便用戶編寫鏈?zhǔn)阶鳂I(yè),即在Map或者Reduce階段存在多個Mapper,形式如下:[MAPPER+ REDUCER MAPPER*]

?Hadoop Streaming:方便用戶采用非Java語言編寫作業(yè),允許用戶指定可執(zhí)行文件或者腳本作為Mapper/Reducer。

?Hadoop Pipes:專門為C/C++程序員編寫MapReduce程序提供的工具包。

四、接口介紹:

1、InputFormat接口:

主要用于描述輸入數(shù)據(jù)的格式。提供以下兩個功能:

?數(shù)據(jù)切分:按照某個策略將輸入數(shù)據(jù)切分成若干個split,以便確定Map Task個數(shù)以及對應(yīng)的split。

?為Mapper提供輸入數(shù)據(jù):給定某個split,能將其解析成一個個key/value對。

2、OutputFormat接口:

主要用于描述輸出數(shù)據(jù)的格式,它能夠?qū)⒂脩籼峁┑膋ey/value對寫入特定格式的文件中。

3、Partitioner接口:

對Mapper產(chǎn)生的中間結(jié)果進(jìn)行分片,以便將同一分組的數(shù)據(jù)交給同一個Reducer處理,它直接影響Reduce階段的負(fù)載均衡。

4、Mapper Reducer:

封裝了應(yīng)用程序的數(shù)據(jù)處理邏輯。所有存儲在底層分布式文件系統(tǒng)上的數(shù)據(jù)均要解釋成key/value的形式,并交給Mapper/Reducer中的map/reduce函數(shù)處理,產(chǎn)生另外一些key/value。

五、非Java API的設(shè)計(jì):

1、Hadoop Streaming:

為方便非Java用戶編寫MapReduce程序而設(shè)計(jì)的工具包。它允許用戶將任何可執(zhí)行文件或者腳本作為Mapper/Reducer。

Hadoop Streaming要求用戶編寫的Mapper/Reducer從標(biāo)準(zhǔn)輸入中讀取數(shù)據(jù),并將結(jié)果寫到標(biāo)準(zhǔn)數(shù)據(jù)中,這類似于Linux中的管道機(jī)制。

》實(shí)現(xiàn)原理:

Hadoop Streaming工具包實(shí)際上是一個使用Java編寫的MapReduce作業(yè)。當(dāng)用戶使用可執(zhí)行文件或者腳本文件充當(dāng)Mapper或者Reducer時,Java端的Mapper或者Reducer充當(dāng)了wrapper角色,它們將輸入文件中的key和value直接傳遞給可執(zhí)行文件或者腳本文件進(jìn)行處理,并將處理結(jié)果寫入HDFS。

六、Task運(yùn)行過程分析:

當(dāng)我們需要編寫一個簡單的mapreduce作業(yè)時,只需要實(shí)現(xiàn)map和reduce兩個函數(shù)即可,然后將作業(yè)提交到集群上,Hadoop內(nèi)部會將這兩個函數(shù)封裝到Map Task和Reduce Task中。為幫助更好的理解兩個Task的實(shí)現(xiàn)原理,以下將從內(nèi)部的實(shí)現(xiàn)原理來深入分析。Map Task:read 、map 、collect 、spill 、Combine;Reduce Task:shuffle、merge、sort、reduce、write。

Map Task的執(zhí)行流程:

通過用戶提供的InputFormat將對應(yīng)的InputSplit解析成一系列的K/V,并以此交給map函數(shù)進(jìn)行處理;

然后按照指定的partition對數(shù)據(jù)進(jìn)行分片,確定相應(yīng)的K/V交給哪個Reduce Task處理;

將數(shù)據(jù)交給用戶定義的combine進(jìn)行本地規(guī)約,最后講處理結(jié)果保存在本地磁盤上。

Reduce Task的執(zhí)行流程:

其輸入來自各個Map Task。首先通過HTTP請求從各個Map Task上拷貝對應(yīng)的數(shù)據(jù)分片,拷貝完后以key為關(guān)鍵字對所有數(shù)據(jù)進(jìn)行排序,通過排序,key相同的記錄聚集到一起形成若干分組,然后將每組數(shù)據(jù)交割reduce處理,最后將結(jié)果直接寫入HDFS中。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容