0基礎(chǔ)搭建Hadoop大數(shù)據(jù)處理-集群安裝

經(jīng)過(guò)一系列的前期環(huán)境準(zhǔn)備，現(xiàn)在可以開始Hadoop的安裝了，在這里去apache官網(wǎng)下載2.7.3的版本http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

不需要下載最新的3.0版本，與后續(xù)Hive最新版本有沖突，不知道是不是自己的打開方式不對(duì)。

hadoop有三種運(yùn)行方式：?jiǎn)螜C(jī)、偽分布式、完全分布式，本文介紹完全分布式。

安裝Hadoop

現(xiàn)在有三個(gè)機(jī)器，一個(gè)Master H32，兩個(gè)Slaver H33、H34。

將下載的壓縮包上傳到解壓并移動(dòng)至Master機(jī)器的相應(yīng)目錄。

將軟件放置/usr/local目錄下：

tar -zxvf hadoop-2.7.3.tar.gz

mv hadoop-2.7.3 hadoop273

創(chuàng)建hadoop用戶組和用戶

[root@H32 local]#groupadd hadoop #添加hadoop組[root@H32 local]#useradd -g hadoop hadoop -s /bin/false

將該hadoop文件夾的屬主用戶設(shè)為hadoop

sudo chown -R hadoop:hadoop /usr/local/hadoop273

配置文件之前先大體介紹一下hadoop2目錄中的各個(gè)文件夾，注意區(qū)分與Hadoop1中的改變。

外層的啟動(dòng)腳本在sbin目錄

內(nèi)層的被調(diào)用腳本在bin目錄

Native的so文件都在lib/native目錄

配置程序文件都放置在libexec

配置文件都在etc目錄，對(duì)應(yīng)以前版本的conf目錄

所有的jar包都在share/hadoop目錄下面

創(chuàng)建Hadoop數(shù)據(jù)目錄：

mkdir -p /usr/local/hadoop273/hdfs/name

mkdir-p /usr/local/hadoop273/hdfs/data

若不配置，Hadoop默認(rèn)將數(shù)據(jù)存儲(chǔ)在tmp文件夾中，重啟會(huì)清空tmp數(shù)據(jù)，因此單獨(dú)配置其數(shù)據(jù)存儲(chǔ)文件夾，具體使用配置在下面XML中。

配置環(huán)境變量

/etc/profile?增加如下內(nèi)容：

export HADOOP_HOME=/usr/local/hadoop273

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

export HADOOP_MAPARED_HOME=${HADOOP_HOME}

export HADOOP_COMMON_HOME=${HADOOP_HOME}

export HADOOP_HDFS_HOME=${HADOOP_HOME}

export HADOOP_YARN_HOME=${HADOOP_HOME}

export YARN_HOME=${HADOOP_HOME}

export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export HDFS_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export LD_LIBRARY_PATH=${HADOOP_HOME}/lib/native/:$LD_LIBRARY_PATH

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

執(zhí)行執(zhí)行source /etc/profile，使之生效

修改slaves文件，添加子節(jié)點(diǎn)服務(wù)名或IP

$HADOOP_HOME/etc/hadoop/slaves?（Master主機(jī)特有，子節(jié)點(diǎn)可以不加）

H33

H34

或?qū)憣?duì)應(yīng)的IP

192.168.80.33

192.168.80.34

hadoop-env.sh中配置java_home

export JAVA_HOME=/usr/local/java/jdk1.8.0_101

讓環(huán)境變量配置生效source

source /usr/local/hadoop3/etc/hadoop/hadoop-env.sh

Hadoop配置文件在conf目錄下，之前的版本的配置文件主要是Hadoop-default.xml和Hadoop-site.xml。

由于Hadoop發(fā)展迅速，代碼量急劇增加，代碼開發(fā)分為了core，hdfs和map/reduce三部分，配置文件也被分成了三個(gè)core-site.xml、hdfs-site.xml、mapred-site.xml。

core-site.xml和hdfs-site.xml是站在HDFS角度上配置文件；core-site.xml和mapred-site.xml是站在MapReduce角度上配置文件。

core-site.xml配置如下（經(jīng)過(guò)多次坑最后能穩(wěn)定跑的配置，說(shuō)多了都是淚）

單獨(dú)創(chuàng)建tmp文件夾hadoop_tmp 給 hadoop.tmp.dir 用于跟普通數(shù)據(jù)隔離。

hdfs-site.xml

mapred-site.xml

yarn-site.xml

注意黃色標(biāo)志，要classpath一定是絕對(duì)路徑，不要用$HADOOP_HOME，運(yùn)行會(huì)一直提示找不到相關(guān)類錯(cuò)誤，至此master節(jié)點(diǎn)的hadoop搭建完畢。

搭建剩余節(jié)點(diǎn)

現(xiàn)在在Master機(jī)器上的Hadoop配置就結(jié)束了，剩下的就是配置Slave機(jī)器上的Hadoop。

將 Master上配置好的hadoop所在文件夾"/usr/local/hadoop273"復(fù)制到所有的Slave的"/usr/local"目錄下（實(shí)際上Slave機(jī)器上的slavers文件是不必要的，復(fù)制了也沒(méi)問(wèn)題）。用下面命令格式進(jìn)行。（備注：此時(shí)用戶可以為hadoop也可以為root）

把H32的hadoop目錄下的logs和tmp刪除，再把H32中的jdk、hadoop文件夾復(fù)制到H33和H34節(jié)點(diǎn)

scp -r /usr/local/hadoop273 root@H33:/usr/local

例如：從"Master.Hadoop"到"Slave1.Hadoop"復(fù)制配置Hadoop的文件。

上圖中以root用戶進(jìn)行復(fù)制，當(dāng)然不管是用戶root還是hadoop，雖然Master機(jī)器上的"/usr/local/hadoop273"文件夾用戶hadoop有權(quán)限，但是Slave1上的hadoop用戶卻沒(méi)有"/usr/local"權(quán)限，所以沒(méi)有創(chuàng)建文件夾的權(quán)限。所以無(wú)論是哪個(gè)用戶進(jìn)行拷貝，右面都是"root@機(jī)器IP"格式。因?yàn)槲覀冎皇墙⑵鹆薶adoop用戶的SSH無(wú)密碼連接，所以用root進(jìn)行"scp"時(shí)，扔提示讓你輸入"Slave1.Hadoop"服務(wù)器用戶root的密碼。

查看"Slave1.Hadoop"服務(wù)器的"/usr/local"目錄下是否已經(jīng)存在"hadoop"文件夾，確認(rèn)已經(jīng)復(fù)制成功。

hadoop文件夾確實(shí)已經(jīng)復(fù)制了，但是我們發(fā)現(xiàn)hadoop權(quán)限是root，所以我們現(xiàn)在要給"Slave1.Hadoop"服務(wù)器上的用戶hadoop添加對(duì)"/usr/local/hadoop"讀權(quán)限。

以上配置完成后，將hadoop整個(gè)文件夾復(fù)制到其他機(jī)器。

啟動(dòng)hadoop

1.格式化namenode

hdfs namenode -format 只需一次，下次啟動(dòng)不再需要格式化，只需 start-all.sh

若沒(méi)有設(shè)置路徑$HADOOP_HOME/bin為環(huán)境變量，則需在$HADOOP_HOME路徑下執(zhí)行

bin/hdfs namenode -format

2.啟動(dòng)dfs及yarn

start-dfs.sh 在啟動(dòng)前關(guān)閉集群中所有機(jī)器的防火墻，不然會(huì)出現(xiàn)datanode開后又自動(dòng)關(guān)閉(暫未發(fā)現(xiàn)) service iptables stop

start-yarn.sh

若沒(méi)有設(shè)置路徑$HADOOP_HOME/sbin為環(huán)境變量，則需在$HADOOP_HOME路徑下執(zhí)行

sbin/start-dfs.sh

sbin/start-yarn.sh

或直接start-all.sh都啟動(dòng)

另外還要啟動(dòng)history服務(wù)，不然在面板中不能打開history鏈接。

sbin/mr-jobhistory-daemon.sh start historyserver

停止集群

sbin/stop-dfs.sh

sbin/stop-yarn.sh

或直接stop-all.sh

下面使用jps命令查看啟動(dòng)進(jìn)程：

4504 ResourceManager

4066 DataNode

4761 NodeManager

5068 JobHistoryServer

4357 SecondaryNameNode

3833 NameNode

5127 Jps

打開監(jiān)控頁(yè)面

現(xiàn)在便可以打開頁(yè)面http://192.168.80.32:8088及http://192.168.80.32:50070；看到下面兩個(gè)頁(yè)面時(shí)說(shuō)明安裝成功。

測(cè)試

hdfs測(cè)試：

在root中創(chuàng)建文件：

~/hadoop-test-data.txt

向hdfs中上傳文件：

bin/hadoop fs -put ~/hadoop-test-data.txt /tmp/input

查看hdfs文件目錄：

hdfs dfs –ls /

移除文件命令：

hadoop fs -rm -r /tmp/input

Yarn測(cè)試：

運(yùn)行WordCount測(cè)試程序，output為輸出文件。

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /tmp/input output

運(yùn)行過(guò)程出現(xiàn)下面內(nèi)容，沒(méi)有錯(cuò)誤提示說(shuō)明正常：

具體查看結(jié)果：

查看生成列表，會(huì)有兩個(gè)文件，主要查看part-r-00000

hadoop fs -ls output/

hadoop fs -cat output/part-r-00000

結(jié)果顯示：

hadoop 1

hello 2

java 4

jsp 1

到這里，hadoop-2環(huán)境搭建結(jié)束，配置文件根據(jù)具體需求，具體配置。

查看集群狀態(tài)：

[root@H32 hadoop273]$ ./bin/hdfs dfsadmin -report

MapReduce Application Master界面：

Map Task運(yùn)行狀況：

某個(gè)Node上各個(gè)Container狀態(tài)：

擴(kuò)展

以下列布署過(guò)程中遇到的幾個(gè)常見(jiàn)問(wèn)題，加了網(wǎng)上一些網(wǎng)友的內(nèi)容。

解決"no datanode to stop"問(wèn)題

當(dāng)停止Hadoop時(shí)發(fā)現(xiàn)如下信息：

原因：每次namenode format會(huì)重新創(chuàng)建一個(gè)namenodeId，而tmp/dfs/data下包含了上次format下的id，namenode format清空了namenode下的數(shù)據(jù)，但是沒(méi)有清空datanode下的數(shù)據(jù)，導(dǎo)致啟動(dòng)時(shí)失敗，所要做的就是每次fotmat前，清空tmp一下的所有目錄。

第一種解決方案如下：

1）先刪除"/usr/hadoop/tmp"

rm -rf /usr/hadoop/tmp

2）創(chuàng)建"/usr/hadoop/tmp"文件夾

mkdir /usr/hadoop/tmp

3）刪除"/tmp"下以"hadoop"開頭文件

rm -rf /tmp/hadoop*

4）重新格式化hadoop

hadoop namenode -format

5）啟動(dòng)hadoop

start-all.sh

使用第一種方案，有種不好處就是原來(lái)集群上的重要數(shù)據(jù)全沒(méi)有了。假如說(shuō)Hadoop集群已經(jīng)運(yùn)行了一段時(shí)間。建議采用第二種。

第二種方案如下：

1）修改每個(gè)Slave的namespaceID使其與Master的namespaceID一致。

或者

2）修改Master的namespaceID使其與Slave的namespaceID一致。

該"namespaceID"位于"/usr/hadoop/tmp/dfs/data/current/VERSION"文件中，前面藍(lán)色的可能根據(jù)實(shí)際情況變化，但后面紅色是不變的。

例如：查看"Master"下的"VERSION"文件

本人建議采用第二種，這樣方便快捷，而且還能防止誤刪。

Slave服務(wù)器中datanode啟動(dòng)后又自動(dòng)關(guān)閉

查看日志發(fā)下如下錯(cuò)誤。

ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Call to ... failed on local exception: java.net.NoRouteToHostException: No route to host

解決方案是：關(guān)閉防火墻

service iptables stop

從本地往hdfs文件系統(tǒng)上傳文件

出現(xiàn)如下錯(cuò)誤：

INFO hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad connect ack with firstBadLink

INFO hdfs.DFSClient: Abandoning block blk_-1300529705803292651_37023

WARN hdfs.DFSClient: DataStreamer Exception: java.io.IOException: Unable to create new block.

解決方案是：

1）關(guān)閉防火墻

service iptables stop

2）禁用selinux

編輯 "/etc/selinux/config"文件，設(shè)置"SELINUX=disabled"

處理速度特別的慢

出現(xiàn)map很快，但是reduce很慢，而且反復(fù)出現(xiàn)"reduce=0%"。

解決方案如下：

結(jié)合解決方案5.7，然后修改"conf/hadoop-env.sh"中的"export HADOOP_HEAPSIZE=4000"

解決hadoop OutOfMemoryError問(wèn)題

出現(xiàn)這種異常，明顯是jvm內(nèi)存不夠得原因。

解決方案如下：要修改所有的datanode的jvm內(nèi)存大小。

Java –Xms 1024m -Xmx 4096m

一般jvm的最大內(nèi)存使用應(yīng)該為總內(nèi)存大小的一半，我們使用的8G內(nèi)存，所以設(shè)置為4096m，這一值可能依舊不是最優(yōu)的值。

Namenode in safe mode

解決方案如下：

bin/hadoop dfsadmin -safemode leave

IO寫操作出現(xiàn)問(wèn)題

0-1246359584298, infoPort=50075, ipcPort=50020):Got exception while serving blk_-5911099437886836280_1292 to /172.16.100.165:

java.net.SocketTimeoutException: 480000 millis timeout while waiting for channel to be ready for write. ch : java.nio.channels.SocketChannel[connected local=/

172.16.100.165:50010 remote=/172.16.100.165:50930]

at org.apache.hadoop.net.SocketIOWithTimeout.waitForIO(SocketIOWithTimeout.java:185)

at org.apache.hadoop.net.SocketOutputStream.waitForWritable(SocketOutputStream.java:159)

……

It seems there are many reasons that it can timeout, the example given in HADOOP-3831 is a slow reading client.

解決方案如下：

在hadoop-site.xml中設(shè)置dfs.datanode.socket.write.timeout=0

java.net.NoRouteToHostException: No Route to Host from H32/192.168.80.32 to H30:40080 failed on socket timeout exception: java.net.NoRouteToHostException: 沒(méi)有到主機(jī)的路由;

關(guān)閉to H30的防火墻，或不能訪問(wèn)H30服務(wù)器，重啟H30

This token is expired. current time is 1489243761235 found 1489239661109

Note: System times on machines may be out of sync. Check system time and time zones.

兩個(gè)主機(jī)的時(shí)間不一致，重置兩個(gè)主機(jī)的時(shí)間，重置方法網(wǎng)上有很多。

啟動(dòng)hadoop時(shí)沒(méi)有NameNode的可能原因：

（1） NameNode沒(méi)有格式化

（2）環(huán)境變量配置錯(cuò)誤

（3） Ip和hostname綁定失敗

（4）hostname含有特殊符號(hào)如何.(符號(hào)點(diǎn))，會(huì)被誤解析

地址占用

報(bào)錯(cuò)：org.apache.hadoop.hdfs.server.namenode.NameNode: Address already in use

解決方法：查找被占用的端口號(hào)對(duì)應(yīng)的PID：netstat –tunl

Pkill -9 PID

實(shí)在不行就killall -9 java

最后編輯于：2017.12.07 03:53:33

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,825評(píng)論 6贊 546
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 99,814評(píng)論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人，你說(shuō)我怎么就攤上這事?！?“怎么了？”我有些...
開封第一講書人閱讀 178,980評(píng)論 0贊 384
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我，道長(zhǎng)，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 64,064評(píng)論 1贊 319
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 72,779評(píng)論 6贊 414
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 56,109評(píng)論 1贊 330
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 44,099評(píng)論 3贊 450
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 43,287評(píng)論 0贊 291
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 49,799評(píng)論 1贊 338
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 41,515評(píng)論 3贊 361
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 43,750評(píng)論 1贊 375
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,221評(píng)論 5贊 365
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 44,933評(píng)論 3贊 351
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,327評(píng)論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,667評(píng)論 1贊 296
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 52,492評(píng)論 3贊 400
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 48,703評(píng)論 2贊 380

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

0基礎(chǔ)搭建Hadoop大數(shù)據(jù)處理-集群安裝

0基礎(chǔ)搭建Hadoop大數(shù)據(jù)處理-集群安裝

安裝Hadoop

創(chuàng)建hadoop用戶組和用戶

配置環(huán)境變量

core-site.xml配置如下（經(jīng)過(guò)多次坑最后能穩(wěn)定跑的配置，說(shuō)多了都是淚）

hdfs-site.xml

mapred-site.xml

yarn-site.xml

搭建剩余節(jié)點(diǎn)

啟動(dòng)hadoop

1.格式化namenode

2.啟動(dòng)dfs及yarn

打開監(jiān)控頁(yè)面

測(cè)試

擴(kuò)展

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

0基礎(chǔ)搭建Hadoop大數(shù)據(jù)處理-集群安裝

安裝Hadoop

創(chuàng)建hadoop用戶組和用戶

配置環(huán)境變量

core-site.xml配置如下（經(jīng)過(guò)多次坑最后能穩(wěn)定跑的配置，說(shuō)多了都是淚）

hdfs-site.xml

mapred-site.xml

yarn-site.xml

搭建剩余節(jié)點(diǎn)

啟動(dòng)hadoop

1.格式化namenode

2.啟動(dòng)dfs及yarn

打開監(jiān)控頁(yè)面

測(cè)試

擴(kuò)展

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

core-site.xml配置如下（經(jīng)過(guò)多次坑最后能穩(wěn)定跑的配置，說(shuō)多了都是淚）