基于Docker快速搭建多節點Hadoop集群

可以直接進入第三部分，快速在本機搭建一個3個節點的Hadoop集群

一. 項目簡介
二. 鏡像簡介
三. 3節點Hadoop集群搭建步驟
四. N節點Hadoop集群搭建步驟

一. 項目簡介

直接用機器搭建Hadoop集群是一個相當痛苦的過程，尤其對初學者來說。他們還沒開始跑wordcount，可能就被這個問題折騰的體無完膚了。

我的目標是將Hadoop集群運行在Docker容器中，使Hadoop開發者能夠快速便捷地在本機搭建多節點的Hadoop集群。其實這個想法已經有了不少實現，但是都不是很理想，他們或者鏡像太大，或者使用太慢，或者使用了第三方工具使得使用起來過于復雜...下表為一些已知的Hadoop on Docker項目以及其存在的問題。

| 項目 | 鏡像大小 | 問題 |
| : ------------- ---------------| : ------ | :-------------------- |
|sequenceiq/hadoop-docker:latest |1.491GB | 鏡像太大，只支持單個節點|
|sequenceiq/hadoop-docker:2.7.0 |1.76 GB | 同上 |
|sequenceiq/hadoop-docker:2.6.0 |1.624GB | 同上 |
|sequenceiq/ambari:latest |1.782GB | 鏡像太大，使用太慢|
|sequenceiq/ambari:2.0.0 |4.804GB | 同上 |
|sequenceiq/ambari:latest:1.70 |4.761GB | 同上 |
|alvinhenrick/hadoop-mutinode |4.331GB |鏡像太大，構建太慢，增加節點麻煩，有bug

我的項目參考了alvinhenrick/hadoop-mutinode項目，不過我做了大量的優化和重構。alvinhenrick/hadoop-mutinode項目的Github主頁以及作者所寫的博客地址：GitHub，博客

下面兩個表是alvinhenrick/hadoop-mutinode項目與我的kiwenlau/hadoop-cluster-docker項目的參數對比

鏡像名稱	構建時間	鏡像層數	鏡像大小
alvinhenrick/serf	258.213s	21	239.4MB
alvinhenrick/hadoop-base	2236.055s	58	4.328GB
alvinhenrick/hadoop-dn	51.959s	74	4.331GB
alvinhenrick/hadoop-nn-dn	49.548s	84	4.331GB

鏡像名稱	構建時間	鏡像層數	鏡像大小
kiwenlau/serf-dnsmasq	509.46s	8	206.6 MB
kiwenlau/hadoop-base	400.29s	7	775.4 MB
kiwenlau/hadoop-master	5.41s	9	775.4 MB
kiwenlau/hadoop-slave	2.41s	8	775.4 MB

可知，我主要優化了這樣幾點

更小的鏡像大小
更快的構造時間
更少的鏡像層數

更快更方便地改變Hadoop集群節點數目

另外，alvinhenrick/hadoop-mutinode項目增加節點時需要手動修改Hadoop配置文件然后重新構建hadoop-nn-dn鏡像,然后修改容器啟動腳本，才能實現增加節點的功能。而我通過shell腳本實現自動話，不到1分鐘可以重新構建hadoop-master鏡像，然后立即運行?。?！本項目默認啟動3個節點的Hadoop集群，支持任意節點數的hadoop集群。

另外，啟動hadoop, 運行wordcount以及重新構建鏡像都采用了shell腳本實現自動化。這樣使得整個項目的使用以及開發都變得非常方便快捷:)

開發測試環境

操作系統：ubuntu 14.04 和 ubuntu 12.04
內核版本: 3.13.0-32-generic
Docker版本：1.5.0 和1.6.2

硬盤不夠，內存不夠，尤其是內核版本過低會導致運行失敗:(

二. 鏡像簡介

本項目一共開發了4個鏡像

serf-dnsmasq
hadoop-base
hadoop-master
hadoop-slave

serf-dnsmasq鏡像

基于ubuntu:15.04 (選它是因為它最小，不是因為它最新...)
安裝serf: serf是一個分布式的機器節點管理工具。它可以動態地發現所有hadoop集群節點。
安裝dnsmasq: dnsmasq作為輕量級的dns服務器。它可以為hadoop集群提供域名解析服務。

容器啟動時，master節點的IP會傳給所有slave節點。serf會在container啟動后立即啟動。slave節點上的serf agent會馬上發現master節點（master IP它們都知道嘛），master節點就馬上發現了所有slave節點。然后它們之間通過互相交換信息，所有節點就能知道其他所有節點的存在了！(Everyone will know Everyone). serf發現新的節點時，就會重新配置dnsmasq,然后重啟dnsmasq. 所以dnsmasq就能夠解析集群的所有節點的域名啦。這個過程隨著節點的增加會耗時更久，因此，若配置的Hadoop節點比較多，則在啟動容器后需要測試serf是否發現了所有節點，dns是否能夠解析所有節點域名。稍等片刻才能啟動Hadoop。這個解決方案是由SequenceIQ公司提出的，該公司專注于將Hadoop運行在Docker中。請參考這個PPT：Docker-based Hadoop Provisioning

hadoop-base鏡像

基于serf-dnsmasq鏡像
安裝JDK(openjdk)
安裝openssh-server, 配置無密碼ssh
安裝vim：介樣就可以愉快地在容器中敲代碼了:)
安裝Hadoop 2.3.0: 安裝編譯過的hadoop （2.5.2， 2.6.0， 2.7.0 都比2.3.0大，所以我懶得升級了）

編譯Hadoop的步驟請參考我的博客：Hadoop 2.30 在Ubuntu 14.04 中編譯

如果需要重新開發我的hadoop-base, 需要下載編譯過的hadoop-2.3.0安裝包，放到hadoop-cluster-docker/hadoop-base/files目錄內。我編譯的64位hadoop-2.3.0下載地址：hadoop-2.3.0

另外，我還編譯了64位的hadoop 2.5.2, 2.6.0, 2.7.0, 其下載地址如下：

hadoop-2.3.0
hadoop-2.5.2
hadoop-2.6.0
hadoop-2.7.0

hadoop-master鏡像

基于hadoop-base鏡像
配置hadoop的master節點
格式化namenode

這一步需要配置slaves文件，而slaves文件需要列出所有節點的域名或者IP。因此，Hadoop節點數目不同時，slaves文件自然也不一樣。因此，更改Hadoop集群節點數目時，需要修改slaves文件然后重新構建hadoop-master鏡像。我編寫了一個resize-cluster.sh腳本自動化這一過程。僅需給定節點數目作為腳本參數就可以輕松實現Hadoop集群節點數目的更改。由于hadoop-master鏡像僅僅做一些配置工作，也無需下載任何文件，整個過程非?？欤?分鐘就足夠了。

hadoop-slave鏡像

基于hadoop-base鏡像
配置hadoop的slave節點

鏡像大小分析

下表為sudo docker images的運行結果

REPOSITORY	TAG	IMAGE ID	CREATED	VIRTUAL SIZE
index.alauda.cn/kiwenlau/hadoop-slave	0.1.0	d63869855c03	17 hours ago	777.4 MB
index.alauda.cn/kiwenlau/hadoop-master	0.1.0	7c9d32ede450	17 hours ago	777.4 MB
index.alauda.cn/kiwenlau/hadoop-base	0.1.0	5571bd5de58e	17 hours ago	777.4 MB
index.alauda.cn/kiwenlau/serf-dnsmasq	0.1.0	09ed89c24ee8	17 hours ago	206.7 MB
ubuntu	15.04	bd94ae587483	3 weeks ago	131.3 MB

易知以下幾個結論：

serf-dnsmasq鏡像在ubuntu:15.04鏡像的基礎上增加了75.4MB
hadoop-base鏡像在serf-dnsmasq鏡像的基礎上增加了570.7MB
hadoop-master和hadoop-slave鏡像在hadoop-base鏡像的基礎上大小幾乎沒有增加

下表為docker history index.alauda.cn/kiwenlau/hadoop-base:0.1.0命令的部分運行結果

IMAGE	CREATED	CREATED BY	SIZE
2039b9b81146	44 hours ago	/bin/sh -c #(nop) ADD multi:a93c971a49514e787	158.5 MB
cdb620312f30	44 hours ago	/bin/sh -c apt-get install -y openjdk-7-jdk	324.6 MB
da7d10c790c1	44 hours ago	/bin/sh -c apt-get install -y openssh-server	87.58 MB
c65cb568defc	44 hours ago	/bin/sh -c curl -Lso serf.zip https://dl.bint	14.46 MB
3e22b3d72e33	44 hours ago	/bin/sh -c apt-get update && apt-get install	60.89 MB
b68f8c8d2140	3 weeks ago	/bin/sh -c #(nop) ADD file:d90f7467c470bfa9a3	131.3 MB

可知

基礎鏡像ubuntu:15.04為131.3MB
安裝openjdk需要324.6MB
安裝hadoop需要158.5MB
ubuntu,openjdk與hadoop均為鏡像所必須，三者一共占了:614.4MB
因此，我所開發的hadoop鏡像以及接近最小，優化空間已經很小了

下圖顯示了項目的Docker鏡像結構：

![Image Architecture](/image/image architecture.jpg "Image Architecture")

三. 3節點Hadoop集群搭建步驟

1. 拉取鏡像

sudo docker pull index.alauda.cn/kiwenlau/hadoop-master:0.1.0
sudo docker pull index.alauda.cn/kiwenlau/hadoop-slave:0.1.0
sudo docker pull index.alauda.cn/kiwenlau/hadoop-base:0.1.0
sudo docker pull index.alauda.cn/kiwenlau/serf-dnsmasq:0.1.0

3_5分鐘OK

查看下載的鏡像


sudo docker images

運行結果

|REPOSITORY | TAG | IMAGE ID | CREATED | VIRTUAL SIZE |
| ---------- | ----------- | --------- | -------- |
| index.alauda.cn/kiwenlau/hadoop-slave | 0.1.0 |d63869855c03 | 17 hours ago | 777.4 MB|
|index.alauda.cn/kiwenlau/hadoop-master | 0.1.0 | 7c9d32ede450 | 17 hours ago | 777.4 MB |
| index.alauda.cn/kiwenlau/hadoop-base | 0.1.0 | 5571bd5de58e | 17 hours ago | 777.4 MB |
| index.alauda.cn/kiwenlau/serf-dnsmasq | 0.1.0 | 09ed89c24ee8 | 17 hours ago | 206.7 MB |

hadoop-base鏡像是基于serf-dnsmasq鏡像的，hadoop-slave鏡像和hadoop-master鏡像都是基于hadoop-base鏡像
所以其實4個鏡像一共也就777.4MB:)

2. 修改鏡像tag

sudo docker tag d63869855c03 kiwenlau/hadoop-slave:0.1.0
sudo docker tag 7c9d32ede450 kiwenlau/hadoop-master:0.1.0
sudo docker tag 5571bd5de58e kiwenlau/hadoop-base:0.1.0
sudo docker tag 09ed89c24ee8 kiwenlau/serf-dnsmasq:0.1.0

查看修改tag后鏡像


sudo docker images

運行結果

REPOSITORY	TAG	IMAGE ID	CREATED	VIRTUAL SIZE
index.alauda.cn/kiwenlau/hadoop-slave	0.1.0	d63869855c03	17 hours ago	777.4 MB
kiwenlau/hadoop-slave	0.1.0	d63869855c03	17 hours ago	777.4 MB
index.alauda.cn/kiwenlau/hadoop-master	0.1.0	7c9d32ede450	17 hours ago	777.4 MB
kiwenlau/hadoop-master	0.1.0	7c9d32ede450	17 hours ago	777.4 MB
kiwenlau/hadoop-base	0.1.0	5571bd5de58e	17 hours ago	777.4 MB
index.alauda.cn/kiwenlau/hadoop-base	0.1.0	5571bd5de58e	17 hours ago	777.4 MB
kiwenlau/serf-dnsmasq	0.1.0	09ed89c24ee8	17 hours ago	206.7 MB
index.alauda.cn/kiwenlau/serf-dnsmasq	0.1.0	09ed89c24ee8	17 hours ago	206.7 MB

之所以要修改鏡像，是因為我默認是將鏡像上傳到Dockerhub, 因此Dokerfile以及shell腳本中得鏡像名稱都是沒有alauada前綴的，sorry for this....不過改tag還是很快滴
若直接下載我在DockerHub中的鏡像，自然就不需要修改tag...不過Alauda鏡像下載速度很快的哈~

3.下載源代碼

git clone https://github.com/kiwenlau/hadoop-cluster-docker

為了防止Github被XX, 我把代碼導入到了開源中國的git倉庫

git clone http://git.oschina.net/kiwenlau/hadoop-cluster-docker

4. 運行容器

cd hadoop-cluster-docker
./start-container.sh

運行結果

start master container...
start slave1 container...
start slave2 container...
root@master:~#

一共開啟了3個容器，1個master, 2個slave
開啟容器后就進入了master容器root用戶的家目錄（/root）

查看master的root用戶家目錄的文件

ls

運行結果

hdfs  run-wordcount.sh  serf_log  start-hadoop.sh  start-ssh-serf.sh

start-hadoop.sh是開啟hadoop的shell腳本
run-wordcount.sh是運行wordcount的shell腳本，可以測試鏡像是否正常工作

5.測試容器是否正常啟動(此時已進入master容器)

查看hadoop集群成員

serf members

運行結果

master.kiwenlau.com  172.17.0.65:7946  alive
slave1.kiwenlau.com  172.17.0.66:7946  alive
slave2.kiwenlau.com  172.17.0.67:7946  alive

若結果缺少節點，可以稍等片刻，再執行“serf members”命令。因為serf agent需要時間發現所有節點。

測試ssh

ssh slave2.kiwenlau.com

運行結果

Warning: Permanently added 'slave2.kiwenlau.com,172.17.0.67' (ECDSA) to the list of known hosts.
Welcome to Ubuntu 15.04 (GNU/Linux 3.13.0-53-generic x86_64)
* Documentation:  https://help.ubuntu.com/
The programs included with the Ubuntu system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.
Ubuntu comes with ABSOLUTELY NO WARRANTY, to the extent permitted by
applicable law.
root@slave2:~#

退出slave2

exit

運行結果

logout
Connection to slave2.kiwenlau.com closed.

若ssh失敗，請稍等片刻再測試，因為dnsmasq的dns服務器啟動需要時間。
測試成功后，就可以開啟Hadoop集群了！其實你也可以不進行測試，開啟容器后耐心等待一分鐘即可！

6. 開啟hadoop

./start-hadoop.sh

上一步ssh到slave2之后，請記得回到master啊!!！
運行結果太多，忽略....
hadoop的啟動速度取決于機器性能....

7. 運行wordcount

./run-wordcount.sh

運行結果

input file1.txt:
Hello Hadoop
input file2.txt:
Hello Docker
wordcount output:
Docker  1
Hadoop  1
Hello   2

wordcount的執行速度取決于機器性能....

四. N節點Hadoop集群搭建步驟

1. 準備工作

參考第二部分1~3：下載鏡像，修改tag，下載源代碼
注意，你可以不下載serf-dnsmasq, 但是請最好下載hadoop-base，因為hadoop-master是基于hadoop-base構建的

2. 重新構建hadoop-master鏡像

./resize-cluster.sh 5

不要擔心，1分鐘就能搞定
你可以為resize-cluster.sh腳本設不同的正整數作為參數數1, 2, 3, 4, 5, 6...

3. 啟動容器

./start-container.sh 5

你可以為resize-cluster.sh腳本設不同的正整數作為參數數1, 2, 3, 4, 5, 6...
這個參數呢，最好還是得和上一步的參數一致:)
這個參數如果比上一步的參數大，你多啟動的節點，Hadoop不認識它們..
這個參數如果比上一步的參數小，Hadoop覺得少啟動的節點掛掉了..

4. 測試工作

參考第三部分5~7：測試容器，開啟Hadoop，運行wordcount
請注意，若節點增加，請務必先測試容器，然后再開啟Hadoop, 因為serf可能還沒有發現所有節點，而dnsmasq的DNS服務器表示還沒有配置好服務
測試等待時間取決于機器性能....

版權聲明
轉載時請注明作者KiwenLau以及本文地址：
http://kiwenlau.com/2015/06/08/hadoop-cluster-docker/

最后編輯于：2017.11.27 02:49:13

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,825評論 6贊 546
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,814評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 178,980評論 0贊 384
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 64,064評論 1贊 319
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,779評論 6贊 414
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 56,109評論 1贊 330
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 44,099評論 3贊 450
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 43,287評論 0贊 291
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,799評論 1贊 338
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,515評論 3贊 361
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,750評論 1贊 375
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,221評論 5贊 365
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,933評論 3贊 351
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,327評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,667評論 1贊 296
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,492評論 3贊 400
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,703評論 2贊 380

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

基于Docker快速搭建多節點Hadoop集群

基于Docker快速搭建多節點Hadoop集群

一. 項目簡介

更快更方便地改變Hadoop集群節點數目

開發測試環境

硬盤不夠，內存不夠，尤其是內核版本過低會導致運行失敗:(

二. 鏡像簡介

本項目一共開發了4個鏡像

serf-dnsmasq鏡像

hadoop-base鏡像

hadoop-master鏡像

hadoop-slave鏡像

鏡像大小分析

三. 3節點Hadoop集群搭建步驟

1. 拉取鏡像

2. 修改鏡像tag

3.下載源代碼

4. 運行容器

5.測試容器是否正常啟動(此時已進入master容器)

6. 開啟hadoop

7. 運行wordcount

四. N節點Hadoop集群搭建步驟

1. 準備工作

2. 重新構建hadoop-master鏡像

3. 啟動容器

4. 測試工作

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

基于Docker快速搭建多節點Hadoop集群

一. 項目簡介

更快更方便地改變Hadoop集群節點數目

開發測試環境

硬盤不夠，內存不夠，尤其是內核版本過低會導致運行失敗:(

二. 鏡像簡介

本項目一共開發了4個鏡像

serf-dnsmasq鏡像

hadoop-base鏡像

hadoop-master鏡像

hadoop-slave鏡像

鏡像大小分析

三. 3節點Hadoop集群搭建步驟

1. 拉取鏡像

2. 修改鏡像tag

3.下載源代碼

4. 運行容器

5.測試容器是否正常啟動(此時已進入master容器)

6. 開啟hadoop

7. 運行wordcount

四. N節點Hadoop集群搭建步驟

1. 準備工作

2. 重新構建hadoop-master鏡像

3. 啟動容器

4. 測試工作

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

硬盤不夠，內存不夠，尤其是內核版本過低會導致運行失敗:(