https://wenku.baidu.com/view/929678ccf90f76c661371a87.html
一、MapReduce架構組成
(主從架構)主要包含4個主要的組件:
》Client:將編寫的MapReduce程序提交給JobTracker端。在Hadoop內部用“作業”(Job)表示MapReduce程序,每個作業會被分解成若干個Map/Reduce任務(Task)。
》JobTracker:主要負責資源監控和作業調度。監控所有TaskTracker與作業的健康狀況。
》TaskTracker:TaskTracker會周期性地通過Heartbeat將本節點上資源的使用情況和任務的運行進度匯報給JobTracker,同時接收JobTracker發送過來的命令并執行相應的操作(如啟動新任務、殺死任務等)。TaskTracker使用“slot”等量劃分本節點上的資源量。“slot”代表計算資源(CPU、內存等)。一個Task獲取到一個slot后才有機會運行,而Hadoop調度器的作用就是將各個TaskTracker上的空閑slot分配給Task使用。slot分為Map slot和Reduce slot兩種,分別供Map Task和Reduce Task使用。TaskTracker通過slot數目(可配置參數)限定Task的并發度。
》Task:(任務)Task分為Map Task和Reduce Task兩種,均由TaskTracker啟動。
map task執行流程:
reduce task執行流程:
二、mapreduce的生命周期:(即作業提交到運行結束的整個流程)
一共有5個步驟:
1、作業提交與初始化。JobClient。
2、任務調度與監控。JobTracker。
3、任務運行環境準備。即TaskTracker啟動JVM和資源隔離。
4、任務執行。TaskTracker為Task準備好運行環境后,便會啟動Task.
5、作業完成。所有Task執行完畢后,整個作業執行成功.
三、mapreduce編程接口體系結構:
mapreduce編程模型接口體系的結構如下圖:
整個編程模型位于用戶應用程序層和MapReduce執行層之間。分為兩層:
第一層是最基本的Java API,主要有5個編程組件:分別是InputFormat、Mapper、Partitioner、Reducer和OutputFormat。Hadoop自帶了很多直接可用的InputFormat、Partitioner和OutputFormat,大部分情況下,用戶只需編寫Mapper和Reducer即可。
第二層是工具層,位于基本Java API之上,主要是為了方便用戶編寫復雜的MapReduce程序和利用其他編程語言增加MapReduce計算平臺的兼容性而提出來的。在該層中,主要提供了4個編程工具包。 ? ? ? ? ? ? ??
?JobControl:方便用戶編寫有依賴關系的作業,這些作業往往構成一個有向圖,所以通常稱為DAG(Directed Acyclic Graph)作業,如第2章中的樸素貝葉斯分類算法實現便是4個有依賴關系的作業構成的DAG。
?ChainMapper/ChainReducer:方便用戶編寫鏈式作業,即在Map或者Reduce階段存在多個Mapper,形式如下:[MAPPER+ REDUCER MAPPER*]
?Hadoop Streaming:方便用戶采用非Java語言編寫作業,允許用戶指定可執行文件或者腳本作為Mapper/Reducer。
?Hadoop Pipes:專門為C/C++程序員編寫MapReduce程序提供的工具包。
四、接口介紹:
1、InputFormat接口:
主要用于描述輸入數據的格式。提供以下兩個功能:
?數據切分:按照某個策略將輸入數據切分成若干個split,以便確定Map Task個數以及對應的split。
?為Mapper提供輸入數據:給定某個split,能將其解析成一個個key/value對。
2、OutputFormat接口:
主要用于描述輸出數據的格式,它能夠將用戶提供的key/value對寫入特定格式的文件中。
3、Partitioner接口:
對Mapper產生的中間結果進行分片,以便將同一分組的數據交給同一個Reducer處理,它直接影響Reduce階段的負載均衡。
4、Mapper Reducer:
封裝了應用程序的數據處理邏輯。所有存儲在底層分布式文件系統上的數據均要解釋成key/value的形式,并交給Mapper/Reducer中的map/reduce函數處理,產生另外一些key/value。
五、非Java API的設計:
1、Hadoop Streaming:
為方便非Java用戶編寫MapReduce程序而設計的工具包。它允許用戶將任何可執行文件或者腳本作為Mapper/Reducer。
Hadoop Streaming要求用戶編寫的Mapper/Reducer從標準輸入中讀取數據,并將結果寫到標準數據中,這類似于Linux中的管道機制。
》實現原理:
Hadoop Streaming工具包實際上是一個使用Java編寫的MapReduce作業。當用戶使用可執行文件或者腳本文件充當Mapper或者Reducer時,Java端的Mapper或者Reducer充當了wrapper角色,它們將輸入文件中的key和value直接傳遞給可執行文件或者腳本文件進行處理,并將處理結果寫入HDFS。
六、Task運行過程分析:
當我們需要編寫一個簡單的mapreduce作業時,只需要實現map和reduce兩個函數即可,然后將作業提交到集群上,Hadoop內部會將這兩個函數封裝到Map Task和Reduce Task中。為幫助更好的理解兩個Task的實現原理,以下將從內部的實現原理來深入分析。Map Task:read 、map 、collect 、spill 、Combine;Reduce Task:shuffle、merge、sort、reduce、write。
Map Task的執行流程:
通過用戶提供的InputFormat將對應的InputSplit解析成一系列的K/V,并以此交給map函數進行處理;
然后按照指定的partition對數據進行分片,確定相應的K/V交給哪個Reduce Task處理;
將數據交給用戶定義的combine進行本地規約,最后講處理結果保存在本地磁盤上。
Reduce Task的執行流程:
其輸入來自各個Map Task。首先通過HTTP請求從各個Map Task上拷貝對應的數據分片,拷貝完后以key為關鍵字對所有數據進行排序,通過排序,key相同的記錄聚集到一起形成若干分組,然后將每組數據交割reduce處理,最后將結果直接寫入HDFS中。