為了能夠在生產(chǎn)環(huán)境中搭建Hadoop集群，先決定在虛擬機中搭建一個測試環(huán)境，跑通整個流程。

一：安裝環(huán)境

Centos版本：CentOS Linux release 7.3.1611 (Core)
jdk：java-1.8.0-openjdk-1.8.0.121-0.b13.el7_3.x86_64
hadoop版本：hadoop2.7.3
測試環(huán)境在Virtual box中進行

二：虛擬機配置

Master1:192.168.31.111
Master2:192.168.31.138
Slave1:192.168.31.137
Slave2:192.168.31.162
slave3:192.168.31.102
為了安置配置的方便，關(guān)防所有機子的防火墻,正式的生產(chǎn)環(huán)境需要開啟防火墻，但是最好設(shè)置成內(nèi)網(wǎng)可以訪問，對外只開放必要的端口。

三：配置主機名

每臺機子配上主機名（master1,master2,slave1,slave2,slave3）

／／這種方式只能臨時生效，機器重啟后失效
sudo vim /etc/sysconfig/network
HOSTNAME=master1
sudo hostname master1
／／永久生效需在／etc/hostname中進行配置
sudo vim /etc/hostname

四：配置hosts文件

需要在每臺機器上增加其它機器的ip列表

vim /etc/hosts

五：建立hadoop運行帳號

后續(xù)的行為都在hadoop用戶下操作

adduser hadoop
chown hadoop /home/hadoop
passwd hadoop
給hadoop加權(quán)限
chmod -v u+w /etc/sudoers
vim /etc/sudoers
hadoop ALL = (ALL)ALL
chmod -v u-w /etc/sudoers

六：配置ssh免密鑰

master:
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys
然后復(fù)制到其他的slave節(jié)點中
scp ~/.ssh/authorized_keys hadoop@slave1:~/
scp ~/.ssh/authorized_keys hadoop@slave2:~/
scp ~/.ssh/authorized_keys hadoop@slave3:~/

在各個slave節(jié)點上分別執(zhí)行：
在終端生成密鑰,命令如下(一路點擊回車生成密鑰)
ssh-keygen -t rsa
將 authorized_keys 文件移動到.ssh 目錄
mv authorized_keys ~/.ssh/
修改 authorized_keys 文件的權(quán)限,命令如下
cd ~/.ssh
chmod 600 authorized_keys

需保證兩臺master之間能夠互相登陸，各個master能夠登陸各個slave
然后在master上測試能否免密碼登錄各個slave

tips:

DN之間是否需要配置ssh免密鑰：
datanode之間是要通信的，但不用ssh登錄，只是通過socket進行通信。

七：Hadoop 配置部署

以下先在master1機子上配置后，同步到slave機子，master2的機子后續(xù)配置雙活才使用，現(xiàn)在不用管

1、下載并解壓hadoop

wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
tar -xvzf hadoop-2.7.3.tar.gz

2、配置JAVA_HOME

采用系統(tǒng)自帶的OpenJDK

vim /home/hadoop/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
#export JAVA_HOME=${JAVA_HOME} 
改為
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.121-0.b13.el7_3.x86_64/jre

3、配置 core-site.xml

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://master1:9000</value>
        </property>
        <property>
                <name>io.file.buffer.size</name>
                <value>131072</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>file:/home/hadoop/tmp</value>
        </property>
</configuration>

4、配置文件系統(tǒng) hdfs-site.xml

<configuration>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/home/hadoop/dfs/name</value>
        </property>
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>master1:9001</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>2</value>
        </property>
        <property>
                <name>dfs.webhdfs.enabled</name>
                <value>true</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/home/hadoop/dfs/data</value>
        </property>
</configuration>

5、配置yarn-site.xml

<property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
                <value>org.apache.hadoop.mapred.ShuffleHandler</value> 
        </property>
        <property>
                <name>yarn.resourcemanager.address</name>
                <value>master1:8032</value> 
        </property>
        <property>
                <name>yarn.resourcemanager.scheduler.address</name>
                <value>master1:8030</value> 
        </property>
        <property>
                <name>yarn.resourcemanager.resource-tracker.address</name>
                <value>master1:8035</value> 
        </property>
        <property>
                <name>yarn.resourcemanager.admin.address</name>
                <value>master1:8033</value> 
        </property>
        <property>
              <name>yarn.resourcemanager.webapp.address</name>
                <value>master1:8088</value> 
        </property>

6、配置mapred-site.xml

cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

配置

<property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>master1:10020</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>master1:19888</value>
        </property>

6、修改slaves文件

加入slave的列表

slave1
slave2
slave3

7、復(fù)制到從節(jié)點

將配置好的文件復(fù)制到slave中

scp -r hadoop-2.7.3 hadoop@slave1:~/
scp -r hadoop-2.7.3 hadoop@slave2:~/
scp -r hadoop-2.7.3 hadoop@slave3:~/

八：啟動 Hadoop 集群

1、配置 Hadoop 啟動的系統(tǒng)環(huán)境變量（可不做）

vim ~/.bash_profile
在末尾追加
#HADOOP
export HADOOP_HOME=/home/hadoop/hadoop-2.7.3
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
使配置生效
source ~/.bash_profile

2、創(chuàng)建數(shù)據(jù)目錄

在每臺機子上創(chuàng)建

cd ~
mkdir dfs
mkdir tmp
cd dfs
mkdir name
mkdir data

3、格式化文件系統(tǒng)

在master1機器上進行格式化，其它slave機子不需要

hdfs namenode -format

沒有出現(xiàn) Exception/Error，則表示格式化成功，不要重復(fù)的格式化，會出現(xiàn)問題

4、啟動

sbin/start-dfs.sh 
sbin/start-yarn.sh
或者執(zhí)行
start-all.sh

九、驗證

1、web頁面查看

http://master1:50070

http://master1:8088/cluster

2、運行 PI 實例檢查集群是否成功

hadoop jar ~/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar pi 10 10

出現(xiàn)以下問題（主機名沒有配置對）

檢查方法：

1、檢查網(wǎng)絡(luò)，防火墻是否有問題，需關(guān)閉所有的防火墻
2、查看配置ssh免密鑰登錄是否有問題

運行出錯，子節(jié)點暫沒互通，但是沒有影響最終結(jié)果
[image:1640C461-AC15-421D-9284-9A9451AF6910-375-00004392F9C0D359/24D6C078-4254-4B4B-BCCB-7B7B3D8013DA.png]

安裝過程中出現(xiàn)的問題

1、宿主機卡死

出現(xiàn)場景：

1、對虛擬機進行格式化的時候，window機器掛了
2、跑mapreduce時，window機器掛了

原因：

虛擬機的設(shè)置不對，CPU，磁盤設(shè)置過大

解決方法

設(shè)置成內(nèi)存1G，硬盤固定8G

2、只啟動了一個實例

原因：

一般情況下，出現(xiàn)這個問題的原因是namenode和datanode的clusterID不一致。namenode每次格式化時，會更新clusterID，但是datanode只會在首次格式化時確定，因此就造成不一致現(xiàn)象。期間嘗試過重新格式化磁盤，但中途終止，導(dǎo)致出現(xiàn)此問題

解決方法（兩種）

1、修改datanode里VERSION文件的clusterID與namenode的clusterID一致，重新執(zhí)行start-dfs.sh
2、刪除生成的節(jié)點hdfs的信息，然后重新格式化

更多詳細內(nèi)容請查看個人博客地址http://xuxping.com/

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

hadoop集群搭建

hadoop集群搭建

一：安裝環(huán)境

二：虛擬機配置

三：配置主機名

四：配置hosts文件

五：建立hadoop運行帳號

六：配置ssh免密鑰

tips:

七：Hadoop 配置部署

1、下載并解壓hadoop

2、配置JAVA_HOME

3、配置 core-site.xml

4、配置文件系統(tǒng) hdfs-site.xml

5、配置yarn-site.xml

6、配置mapred-site.xml

6、修改slaves文件

7、復(fù)制到從節(jié)點

八：啟動 Hadoop 集群

1、配置 Hadoop 啟動的系統(tǒng)環(huán)境變量（可不做）

2、創(chuàng)建數(shù)據(jù)目錄

3、格式化文件系統(tǒng)

4、啟動

九、驗證

1、web頁面查看

2、運行 PI 實例檢查集群是否成功

檢查方法：

安裝過程中出現(xiàn)的問題

1、宿主機卡死

出現(xiàn)場景：

原因：

解決方法

2、只啟動了一個實例

原因：

解決方法（兩種）

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

hadoop集群搭建

一：安裝環(huán)境

二：虛擬機配置

三：配置主機名

四：配置hosts文件

五：建立hadoop運行帳號

六： 配置ssh免密鑰

tips:

七：Hadoop 配置部署

1、下載并解壓hadoop

2、配置JAVA_HOME

3、配置 core-site.xml

4、 配置文件系統(tǒng) hdfs-site.xml

5、配置yarn-site.xml

6、配置mapred-site.xml

6、修改slaves文件

7、復(fù)制到從節(jié)點

八：啟動 Hadoop 集群

1、配置 Hadoop 啟動的系統(tǒng)環(huán)境變量（可不做）

2、創(chuàng)建數(shù)據(jù)目錄

3、格式化文件系統(tǒng)

4、啟動

九、驗證

1、web頁面查看

2、運行 PI 實例檢查集群是否成功

檢查方法：

安裝過程中出現(xiàn)的問題

1、宿主機卡死

出現(xiàn)場景：

原因：

解決方法

2、只啟動了一個實例

原因：

解決方法（兩種）

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

六：配置ssh免密鑰

4、配置文件系統(tǒng) hdfs-site.xml