應用場景:
1 計數和統計
2 整理
3 過濾
4 排序
1、Hadoop安裝
2、映射器(Mapper)
映射器的任務是將輸入轉換成一系列的鍵值對。比如在字計數器的情況下,輸入是一系列的行。我們按單詞將它們分開,把它們變成鍵值對(如key:word,value:1),看起來像這樣:
the 1
water 1
on 1
on 1
water 1
on 1
... 1
3、reducer
reducer的任務是檢索(排序)對,迭代并轉換為所需輸出。 在單詞計數器的例子中,取單詞數(值),并將它們相加得到一個單詞(鍵)及其最終計數。如下:
water 2
the 1
on 3
4、基于單詞計數器的理解:
hadoop jar /usr/hadoop/2.5.1/libexec/lib/hadoop-streaming-2.5.1.jar \
-mapper "./mapper.php"http://將數據處理成鍵值對
-reducer "./reducer.php"http://將鍵值對歸類
-input "hello/mobydick.txt"http://將數據寫入文件
-output "hello/result"http://輸出統計結果寫入文件