基于Docker快速搭建多節點Hadoop集群

GitHub: kiwenlau/hadoop-cluster-docker

可以直接進入第三部分,快速在本機搭建一個3個節點的Hadoop集群

一. 項目簡介
二. 鏡像簡介
三. 3節點Hadoop集群搭建步驟
四. N節點Hadoop集群搭建步驟

一. 項目簡介

直接用機器搭建Hadoop集群是一個相當痛苦的過程,尤其對初學者來說。他們還沒開始跑wordcount,可能就被這個問題折騰的體無完膚了。

我的目標是將Hadoop集群運行在Docker容器中,使Hadoop開發者能夠快速便捷地在本機搭建多節點的Hadoop集群。其實這個想法已經有了不少實現,但是都不是很理想,他們或者鏡像太大,或者使用太慢,或者使用了第三方工具使得使用起來過于復雜...下表為一些已知的Hadoop on Docker項目以及其存在的問題。

| 項目 | 鏡像大小 | 問題 |
| : ------------- ---------------| : ------ | :-------------------- |
|sequenceiq/hadoop-docker:latest |1.491GB | 鏡像太大,只支持單個節點|
|sequenceiq/hadoop-docker:2.7.0 |1.76 GB | 同上 |
|sequenceiq/hadoop-docker:2.6.0 |1.624GB | 同上 |
|sequenceiq/ambari:latest |1.782GB | 鏡像太大,使用太慢|
|sequenceiq/ambari:2.0.0 |4.804GB | 同上 |
|sequenceiq/ambari:latest:1.70 |4.761GB | 同上 |
|alvinhenrick/hadoop-mutinode |4.331GB |鏡像太大,構建太慢,增加節點麻煩,有bug

我的項目參考了alvinhenrick/hadoop-mutinode項目,不過我做了大量的優化和重構。alvinhenrick/hadoop-mutinode項目的Github主頁以及作者所寫的博客地址:GitHub,博客

下面兩個表是alvinhenrick/hadoop-mutinode項目與我的kiwenlau/hadoop-cluster-docker項目的參數對比

鏡像名稱 構建時間 鏡像層數 鏡像大小
alvinhenrick/serf 258.213s 21 239.4MB
alvinhenrick/hadoop-base 2236.055s 58 4.328GB
alvinhenrick/hadoop-dn 51.959s 74 4.331GB
alvinhenrick/hadoop-nn-dn 49.548s 84 4.331GB
鏡像名稱 構建時間 鏡像層數 鏡像大小
kiwenlau/serf-dnsmasq 509.46s 8 206.6 MB
kiwenlau/hadoop-base 400.29s 7 775.4 MB
kiwenlau/hadoop-master 5.41s 9 775.4 MB
kiwenlau/hadoop-slave 2.41s 8 775.4 MB

可知,我主要優化了這樣幾點

  • 更小的鏡像大小
  • 更快的構造時間
  • 更少的鏡像層數
更快更方便地改變Hadoop集群節點數目

另外,alvinhenrick/hadoop-mutinode項目增加節點時需要手動修改Hadoop配置文件然后重新構建hadoop-nn-dn鏡像,然后修改容器啟動腳本,才能實現增加節點的功能。而我通過shell腳本實現自動話,不到1分鐘可以重新構建hadoop-master鏡像,然后立即運行?。?!本項目默認啟動3個節點的Hadoop集群,支持任意節點數的hadoop集群。

另外,啟動hadoop, 運行wordcount以及重新構建鏡像都采用了shell腳本實現自動化。這樣使得整個項目的使用以及開發都變得非常方便快捷:)

開發測試環境
  • 操作系統:ubuntu 14.04 和 ubuntu 12.04
  • 內核版本: 3.13.0-32-generic
  • Docker版本:1.5.0 和1.6.2
硬盤不夠,內存不夠,尤其是內核版本過低會導致運行失敗:(

二. 鏡像簡介

本項目一共開發了4個鏡像
  • serf-dnsmasq
  • hadoop-base
  • hadoop-master
  • hadoop-slave
serf-dnsmasq鏡像
  • 基于ubuntu:15.04 (選它是因為它最小,不是因為它最新...)
  • 安裝serf: serf是一個分布式的機器節點管理工具。它可以動態地發現所有hadoop集群節點。
  • 安裝dnsmasq: dnsmasq作為輕量級的dns服務器。它可以為hadoop集群提供域名解析服務。

容器啟動時,master節點的IP會傳給所有slave節點。serf會在container啟動后立即啟動。slave節點上的serf agent會馬上發現master節點(master IP它們都知道嘛),master節點就馬上發現了所有slave節點。然后它們之間通過互相交換信息,所有節點就能知道其他所有節點的存在了!(Everyone will know Everyone). serf發現新的節點時,就會重新配置dnsmasq,然后重啟dnsmasq. 所以dnsmasq就能夠解析集群的所有節點的域名啦。這個過程隨著節點的增加會耗時更久,因此,若配置的Hadoop節點比較多,則在啟動容器后需要測試serf是否發現了所有節點,dns是否能夠解析所有節點域名。稍等片刻才能啟動Hadoop。這個解決方案是由SequenceIQ公司提出的,該公司專注于將Hadoop運行在Docker中。請參考這個PPT:Docker-based Hadoop Provisioning

hadoop-base鏡像
  • 基于serf-dnsmasq鏡像
  • 安裝JDK(openjdk)
  • 安裝openssh-server, 配置無密碼ssh
  • 安裝vim:介樣就可以愉快地在容器中敲代碼了:)
  • 安裝Hadoop 2.3.0: 安裝編譯過的hadoop (2.5.2, 2.6.0, 2.7.0 都比2.3.0大,所以我懶得升級了)

編譯Hadoop的步驟請參考我的博客:Hadoop 2.30 在Ubuntu 14.04 中編譯

如果需要重新開發我的hadoop-base, 需要下載編譯過的hadoop-2.3.0安裝包,放到hadoop-cluster-docker/hadoop-base/files目錄內。我編譯的64位hadoop-2.3.0下載地址:hadoop-2.3.0

另外,我還編譯了64位的hadoop 2.5.2, 2.6.0, 2.7.0, 其下載地址如下:

hadoop-master鏡像
  • 基于hadoop-base鏡像
  • 配置hadoop的master節點
  • 格式化namenode

這一步需要配置slaves文件,而slaves文件需要列出所有節點的域名或者IP。因此,Hadoop節點數目不同時,slaves文件自然也不一樣。因此,更改Hadoop集群節點數目時,需要修改slaves文件然后重新構建hadoop-master鏡像。我編寫了一個resize-cluster.sh腳本自動化這一過程。僅需給定節點數目作為腳本參數就可以輕松實現Hadoop集群節點數目的更改。由于hadoop-master鏡像僅僅做一些配置工作,也無需下載任何文件,整個過程非??欤?分鐘就足夠了。

hadoop-slave鏡像
  • 基于hadoop-base鏡像
  • 配置hadoop的slave節點
鏡像大小分析

下表為sudo docker images的運行結果

REPOSITORY TAG IMAGE ID CREATED VIRTUAL SIZE
index.alauda.cn/kiwenlau/hadoop-slave 0.1.0 d63869855c03 17 hours ago 777.4 MB
index.alauda.cn/kiwenlau/hadoop-master 0.1.0 7c9d32ede450 17 hours ago 777.4 MB
index.alauda.cn/kiwenlau/hadoop-base 0.1.0 5571bd5de58e 17 hours ago 777.4 MB
index.alauda.cn/kiwenlau/serf-dnsmasq 0.1.0 09ed89c24ee8 17 hours ago 206.7 MB
ubuntu 15.04 bd94ae587483 3 weeks ago 131.3 MB

易知以下幾個結論:

  • serf-dnsmasq鏡像在ubuntu:15.04鏡像的基礎上增加了75.4MB
  • hadoop-base鏡像在serf-dnsmasq鏡像的基礎上增加了570.7MB
  • hadoop-master和hadoop-slave鏡像在hadoop-base鏡像的基礎上大小幾乎沒有增加

下表為docker history index.alauda.cn/kiwenlau/hadoop-base:0.1.0命令的部分運行結果

IMAGE CREATED CREATED BY SIZE
2039b9b81146 44 hours ago /bin/sh -c #(nop) ADD multi:a93c971a49514e787 158.5 MB
cdb620312f30 44 hours ago /bin/sh -c apt-get install -y openjdk-7-jdk 324.6 MB
da7d10c790c1 44 hours ago /bin/sh -c apt-get install -y openssh-server 87.58 MB
c65cb568defc 44 hours ago /bin/sh -c curl -Lso serf.zip https://dl.bint 14.46 MB
3e22b3d72e33 44 hours ago /bin/sh -c apt-get update && apt-get install 60.89 MB
b68f8c8d2140 3 weeks ago /bin/sh -c #(nop) ADD file:d90f7467c470bfa9a3 131.3 MB

可知

  • 基礎鏡像ubuntu:15.04為131.3MB

  • 安裝openjdk需要324.6MB

  • 安裝hadoop需要158.5MB

  • ubuntu,openjdk與hadoop均為鏡像所必須,三者一共占了:614.4MB

  • 因此,我所開發的hadoop鏡像以及接近最小,優化空間已經很小了

下圖顯示了項目的Docker鏡像結構:

![Image Architecture](/image/image architecture.jpg "Image Architecture")

三. 3節點Hadoop集群搭建步驟

1. 拉取鏡像
sudo docker pull index.alauda.cn/kiwenlau/hadoop-master:0.1.0
sudo docker pull index.alauda.cn/kiwenlau/hadoop-slave:0.1.0
sudo docker pull index.alauda.cn/kiwenlau/hadoop-base:0.1.0
sudo docker pull index.alauda.cn/kiwenlau/serf-dnsmasq:0.1.0
  • 35分鐘OK

查看下載的鏡像


sudo docker images

運行結果

|REPOSITORY | TAG | IMAGE ID | CREATED | VIRTUAL SIZE |
| ---------- | ----------- | --------- | -------- |
| index.alauda.cn/kiwenlau/hadoop-slave | 0.1.0 |d63869855c03 | 17 hours ago | 777.4 MB|
|index.alauda.cn/kiwenlau/hadoop-master | 0.1.0 | 7c9d32ede450 | 17 hours ago | 777.4 MB |
| index.alauda.cn/kiwenlau/hadoop-base | 0.1.0 | 5571bd5de58e | 17 hours ago | 777.4 MB |
| index.alauda.cn/kiwenlau/serf-dnsmasq | 0.1.0 | 09ed89c24ee8 | 17 hours ago | 206.7 MB |

  • hadoop-base鏡像是基于serf-dnsmasq鏡像的,hadoop-slave鏡像和hadoop-master鏡像都是基于hadoop-base鏡像
  • 所以其實4個鏡像一共也就777.4MB:)
2. 修改鏡像tag
sudo docker tag d63869855c03 kiwenlau/hadoop-slave:0.1.0
sudo docker tag 7c9d32ede450 kiwenlau/hadoop-master:0.1.0
sudo docker tag 5571bd5de58e kiwenlau/hadoop-base:0.1.0
sudo docker tag 09ed89c24ee8 kiwenlau/serf-dnsmasq:0.1.0

查看修改tag后鏡像


sudo docker images

運行結果

REPOSITORY TAG IMAGE ID CREATED VIRTUAL SIZE
index.alauda.cn/kiwenlau/hadoop-slave 0.1.0 d63869855c03 17 hours ago 777.4 MB
kiwenlau/hadoop-slave 0.1.0 d63869855c03 17 hours ago 777.4 MB
index.alauda.cn/kiwenlau/hadoop-master 0.1.0 7c9d32ede450 17 hours ago 777.4 MB
kiwenlau/hadoop-master 0.1.0 7c9d32ede450 17 hours ago 777.4 MB
kiwenlau/hadoop-base 0.1.0 5571bd5de58e 17 hours ago 777.4 MB
index.alauda.cn/kiwenlau/hadoop-base 0.1.0 5571bd5de58e 17 hours ago 777.4 MB
kiwenlau/serf-dnsmasq 0.1.0 09ed89c24ee8 17 hours ago 206.7 MB
index.alauda.cn/kiwenlau/serf-dnsmasq 0.1.0 09ed89c24ee8 17 hours ago 206.7 MB
  • 之所以要修改鏡像,是因為我默認是將鏡像上傳到Dockerhub, 因此Dokerfile以及shell腳本中得鏡像名稱都是沒有alauada前綴的,sorry for this....不過改tag還是很快滴
  • 若直接下載我在DockerHub中的鏡像,自然就不需要修改tag...不過Alauda鏡像下載速度很快的哈~
3.下載源代碼
git clone https://github.com/kiwenlau/hadoop-cluster-docker
  • 為了防止Github被XX, 我把代碼導入到了開源中國的git倉庫
git clone http://git.oschina.net/kiwenlau/hadoop-cluster-docker
4. 運行容器
cd hadoop-cluster-docker
./start-container.sh

運行結果

start master container...
start slave1 container...
start slave2 container...
root@master:~#
  • 一共開啟了3個容器,1個master, 2個slave
  • 開啟容器后就進入了master容器root用戶的家目錄(/root)

查看master的root用戶家目錄的文件

ls

運行結果

hdfs  run-wordcount.sh  serf_log  start-hadoop.sh  start-ssh-serf.sh
  • start-hadoop.sh是開啟hadoop的shell腳本
  • run-wordcount.sh是運行wordcount的shell腳本,可以測試鏡像是否正常工作
5.測試容器是否正常啟動(此時已進入master容器)

查看hadoop集群成員

serf members

運行結果

master.kiwenlau.com  172.17.0.65:7946  alive
slave1.kiwenlau.com  172.17.0.66:7946  alive
slave2.kiwenlau.com  172.17.0.67:7946  alive
  • 若結果缺少節點,可以稍等片刻,再執行“serf members”命令。因為serf agent需要時間發現所有節點。

測試ssh

ssh slave2.kiwenlau.com

運行結果

Warning: Permanently added 'slave2.kiwenlau.com,172.17.0.67' (ECDSA) to the list of known hosts.
Welcome to Ubuntu 15.04 (GNU/Linux 3.13.0-53-generic x86_64)
* Documentation:  https://help.ubuntu.com/
The programs included with the Ubuntu system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.
Ubuntu comes with ABSOLUTELY NO WARRANTY, to the extent permitted by
applicable law.
root@slave2:~#

退出slave2

exit

運行結果

logout
Connection to slave2.kiwenlau.com closed.
  • 若ssh失敗,請稍等片刻再測試,因為dnsmasq的dns服務器啟動需要時間。
  • 測試成功后,就可以開啟Hadoop集群了!其實你也可以不進行測試,開啟容器后耐心等待一分鐘即可!
6. 開啟hadoop
./start-hadoop.sh
  • 上一步ssh到slave2之后,請記得回到master啊!!!
  • 運行結果太多,忽略....
  • hadoop的啟動速度取決于機器性能....
7. 運行wordcount
./run-wordcount.sh

運行結果

input file1.txt:
Hello Hadoop
input file2.txt:
Hello Docker
wordcount output:
Docker  1
Hadoop  1
Hello   2
  • wordcount的執行速度取決于機器性能....

四. N節點Hadoop集群搭建步驟

1. 準備工作
  • 參考第二部分1~3:下載鏡像,修改tag,下載源代碼
  • 注意,你可以不下載serf-dnsmasq, 但是請最好下載hadoop-base,因為hadoop-master是基于hadoop-base構建的
2. 重新構建hadoop-master鏡像
./resize-cluster.sh 5
  • 不要擔心,1分鐘就能搞定
  • 你可以為resize-cluster.sh腳本設不同的正整數作為參數數1, 2, 3, 4, 5, 6...
3. 啟動容器
./start-container.sh 5
  • 你可以為resize-cluster.sh腳本設不同的正整數作為參數數1, 2, 3, 4, 5, 6...
  • 這個參數呢,最好還是得和上一步的參數一致:)
  • 這個參數如果比上一步的參數大,你多啟動的節點,Hadoop不認識它們..
  • 這個參數如果比上一步的參數小,Hadoop覺得少啟動的節點掛掉了..
4. 測試工作
  • 參考第三部分5~7:測試容器,開啟Hadoop,運行wordcount
  • 請注意,若節點增加,請務必先測試容器,然后再開啟Hadoop, 因為serf可能還沒有發現所有節點,而dnsmasq的DNS服務器表示還沒有配置好服務
  • 測試等待時間取決于機器性能....

版權聲明
轉載時請注明作者KiwenLau以及本文地址:
http://kiwenlau.com/2015/06/08/hadoop-cluster-docker/


最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,825評論 6 546
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,814評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,980評論 0 384
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 64,064評論 1 319
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,779評論 6 414
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,109評論 1 330
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,099評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,287評論 0 291
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,799評論 1 338
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,515評論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,750評論 1 375
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,221評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,933評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,327評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,667評論 1 296
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,492評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,703評論 2 380

推薦閱讀更多精彩內容