本篇文章是總結(jié)官方文檔給出的MapReduce編程模型
Input and Output types of a MapReduce job:
(input)<k1, v1> -> map -> <k2, v2> -> combine -> <k2, v2> -> reduce -> <k3, v3>(output)
MapReduce 講解
新的MapReduce使用 mapreduce包下的類進(jìn)行mapreduce job的編寫
-
Mapper
應(yīng)用通過(guò)使用 Counter來(lái)報(bào)告統(tǒng)計(jì)數(shù)據(jù)與給定輸出鍵相關(guān)的所有中間值由框架分組,并傳遞到 Reducer來(lái)確定最終的輸出。用戶可以通過(guò)指定Comparator 來(lái)控制分組,
設(shè)置如下: job.setGroupingComparatorClass(Class)Mapper的輸出經(jīng)過(guò)排好序后分區(qū)到每一個(gè)Reducer。總共的分區(qū)數(shù)量是與reducer的個(gè)數(shù)是相同的。用戶可以控制哪一個(gè)key去哪一個(gè)Reducer通過(guò)實(shí)現(xiàn)一個(gè)通用的 Partitioner
用戶可以選擇一個(gè)特定的 combiner,通過(guò)如下設(shè)置: Job.setCombinerClass(Class), 通過(guò)執(zhí)行中間輸出的本地聚合,將會(huì)有效的降低從Mapper到Reducer的數(shù)據(jù)輸出。
這些中間值,輸出排序總是被簡(jiǎn)單的格式化。程序可以控制,這些中間值的輸出可以被 compressed 并且這個(gè)編碼格式可以在Configuration中控制。
Maps數(shù)量的控制,基本上一個(gè)hdfs的block分配一個(gè)mapper, 但是可以控制Mapper的數(shù)量,通過(guò)如下配置: Configuration.set(MRJobConfig.NUM_MAPS, int)
2 Reducer
在Job中設(shè)置 Reducer的實(shí)現(xiàn)類,通過(guò)如下設(shè)置:Job.setReducerClass(Class)
設(shè)置Reducer的數(shù)量,通過(guò)如下設(shè)置: Job.setNumReduceTasks(int)
Reducer有三個(gè)主要的階段: shuffle, sort 和 reduce
shuffle
reducer的輸入是mapper中排好序的輸出,在這個(gè)階段,框架抓取所有mapper的輸出的相關(guān)分區(qū),通過(guò)HTTP
sort
在此階段,框架將key進(jìn)行分組(不同的mapper可能輸出相同的key)
shuffle和sort同時(shí)發(fā)生,當(dāng)mapper輸出被獲取時(shí),他們被合并為 key, list<>
reduce
在這個(gè)階段,調(diào)用reduce方法。 典型的會(huì)輸出到文件系統(tǒng),通過(guò) context.write(WritableComparable, Writable).
應(yīng)用將會(huì)使用 Counter(計(jì)數(shù)器) 進(jìn)行統(tǒng)計(jì)
輸出的數(shù)據(jù)是不排序的。
可以將 Reducer的數(shù)量設(shè)置為0
在這種情況下,mapper的task將會(huì)直接將結(jié)果寫入到文件系統(tǒng)中。
Partitioner
Partitioner 控制這些key(map-outputs)是如何進(jìn)行分區(qū)的, 一般來(lái)說(shuō),會(huì)對(duì)key調(diào)用hash函數(shù)來(lái)進(jìn)行分區(qū)。。分區(qū)的數(shù)量是和reduce的數(shù)量是相同的。
HashPartitioner是默認(rèn)的分區(qū)類
Job Configuration
Job 代表了一個(gè) MapReduce任務(wù)的配置
Job 一般用來(lái)配置 Mapper類,combiner,Partitioner, Reducer, InputFormat, OutputFormat.
用戶也可以使用 Configuration.set(String, String)/Configuration.get(String)來(lái)設(shè)置/獲取屬性參數(shù)在應(yīng)用中需要用的到的。
當(dāng)有大量的數(shù)據(jù)需要設(shè)置/獲取時(shí),通過(guò)DistributeCache來(lái)進(jìn)行設(shè)置大量的只讀數(shù)據(jù)。
JOb Input
InputFormat 描述了輸入的規(guī)范在一個(gè)Mapreduce Job中
TextInputFormat是默認(rèn)的InputFormat
InputSplit
InputSplit 表示這個(gè)一個(gè)mapper的被處理的數(shù)據(jù)。
RecordReader
RecordReader 用來(lái)在InputSplit中讀<key, value>
Job Output
OutputFormat 描述了在一個(gè)Mapreduce中輸出的規(guī)范
TextOutputFormat是默認(rèn)的OutputFormat
OutputCommitter
OutputCommitter 描述了在MapReduce 任務(wù)中如何提交 task的輸出
RecordWriter
RecordWrite將輸出<key, value> 寫入到輸出文件中