1. 設置免密登錄
(1) 新建普通用戶hadoop:useradd hadoop
(2) 在主節點master上生成密鑰對,執行命令ssh-keygen -t rsa
便會在home文件夾下生成 .ssh 文件以及id_rsa和id_rsa.pub文件 注意:.ssh文件夾的權限為700,否則會影響其他機器的免密登錄
(3) 執行命令:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 authorized_keys #修改文件的權限為600
(4) 將authorized_keys文件拷貝到下一個主機上后重復上述操作。
scp ~/.ssh/authorized_keys hadoop@slave1:/home/hadoop/.ssh/authorized_keys
若拷貝出錯,則在.ssh文件 可手動建立,但是注意修改其權限為700:chmod 700 .ssh
。。。
以此類推,最終在最后一個節點上的authorized_keys上包括了所有主機的公鑰,再將它拷貝到其他節點上,完成免密登錄的設置。
2.設置hosts文件
本人搭建的Hadoop環境包括有一個主節點和三個從節點,配置為:一個NameNode,一個SecondaryNameNode以及兩個DataNode。
/etc/hosts添加配置如下
10.0.209.122 master122 hadoop-NameNode-122
10.0.209.123 slave123 hadoop-SecondaryNameNode-123
10.0.209.124 slave124 hadoop-DataNode-124
10.0.209.125 slave125 hadoop-DataNode-125
在一個主機上配置完成后,將該文件拷貝到其他節點之上。
3.安裝Hadoop
首先,在master節點上,使用root用戶在/usr/local/文件夾下新建hadoop文件夾,并修改該文件夾對普通用戶有讀寫權限
mkdir /usr/local/hadoop
chmod 777 /usr/local/hadoop
使用普通用戶hadoop登錄:su hadoop
下載jdk1.8安裝包以及hadoop的安裝包,并加壓文件到/usr/local/hadoop下
wget wget http://apache.claz.org/hadoop/common/hadoop-2.8.1/hadoop-2.8.1.tar.gz
tar -xzvf hadoop-2.8.1.tar.gz -C /usr/local/hadoop
加壓后/usr/local/hadoop/文件夾下包含jdk1.8以及hadoop2.8.1,
切換到root用戶,編輯/etc/profile文件
JAVA_HOME=/usr/local/hadoop/jdk1.8.0_102
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
HADOOP_HOME=/usr/local/hadoop/hadoop-2.8.1
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME
export PATH
export HADOOP_HOME
export CLASSPATH
保存后執行source /etc/profile
使其立即生效。
然后執行java -version和hadoop version驗證,配置安裝成功。
4.配置Hadoop集群
(1). 配置core-site.xml
修改Hadoop核心配置文件/usr/local/hadoop/etc/hadoop/core-site.xml
,通過fs.default.name
指定NameNode的IP地址和端口號,通過hadoop.tmp.dir
指定hadoop數據存儲的臨時文件夾。
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/hadoop-2.8.1/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master122:9000</value>
</property>
</configuration>
特別注意:如沒有配置hadoop.tmp.dir參數,此時系統默認的臨時目錄為:/tmp/hadoo-hadoop。而這個目錄在每次重啟后都會被刪除,必須重新執行format才行,否則會出錯。
(2).配置hdfs-site.xml
修改HDFS核心配置文件/usr/local/hadoop/etc/hadoop/hdfs-site.xml
,通過dfs.replication
指定HDFS的備份因子為3,通過dfs.name.dir
指定namenode節點的文件存儲目錄,通過dfs.data.dir
指定datanode節點的文件存儲目錄。
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/usr/local/hadoop/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/hadoop/hdfs/data</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name> #配置SecondaryNameNode
<value>slave123:50090</value>
</property>
</configuration>
(3).配置mapred-site.xml
拷貝mapred-site.xml.template為mapred-site.xml,再進行修改。
cp /usr/local/hadoop/hadoop-2.8.1/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/hadoop-2.8.1/etc/hadoop/mapred-site.xml
vi /usr/local/hadoop/hadoop-2.8.1/etc/hadoop/mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>http://hadoop-master:9001</value>
</property>
</configuration>
(4).配置yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop-master</value>
</property>
</configuration>
(5).配置masters文件
增加/usr/local/hadoop/etc/hadoop/masters
文件,該文件指定namenode節點所在的服務器機器。添加namenode節點的主機名master122;不建議使用IP地址,因為IP地址可能會變化,但是主機名一般不會變化。另外,為將SecondaryNameNode與NameNode分開,可將SecondaryNameNode節點的主機也加入到masters文件之中。
master122
slave123
(6).配置slaves節點(Master主機特有)
修改/usr/local/hadoop/etc/hadoop/slaves
文件,該文件指定哪些服務器節點是datanode節點。刪除locahost,添加所有datanode節點的主機名,如下所示。
vi /usr/local/hadoop/hadoop-2.8.1/etc/hadoop/slaves
slave123
slave124
slave125
(7).配置hadoop-env.sh文件
修改jdk的目錄,以及集群間免密互連的端口(由于本人修改了ssh的默認端口,而hadoop默認是以22端口連接,所以需要進行添加配置)
export JAVA_HOME=/usr/local/hadoop/jdk1.8.0_102 #修改jdk路徑
export HADOOP_SSH_OPTS="-p 22000" #添加ssh自定義端口
(8).配置ssh客戶端配置
由于修改了ssh的默認端口,使得在使用ssh以及scp時都要加上-p/-P 非常的繁瑣(主要是因為懶,懶是人類進步的階梯),所以修改ssh的客戶端配置,使其默認配置端口為自定義端口。
vi /etc/ssh/ssh_config
Port 22000 #將源端口22修改為自定義端口22000
5.同步配置到其他節點
第4步配置是在主節點master上進行的配置,下面要將上述配置好的jdk以及hadoop軟件包拷貝到其他從節點上,首先在各個從節點建立文件夾/usr/local/hadoop,并將其權限設置為777,然后用普通用戶hadoop執行命令:
scp -r /usr/local/hadoop/* slave123:/usr/local/hadoop/ &
scp -r /usr/local/hadoop/* slave124:/usr/local/hadoop/ &
scp -r /usr/local/hadoop/* slave125:/usr/local/hadoop/ &
由于已經配置ssh客戶端的連接端口,所以這里不需要特意指定,加‘&’因為hadoop/下包含jdk以及hadoop軟件包,文件很大,放入后臺執行更方便。
下面繼續將/etc/profile下的JAVA_HOME和HADOOP_HOME配置同步配置到其他節點,至此集群的搭建配置完成。
6.啟動集群
在主節點master上進入到/usr/local/hadoop/hadoop-2.8.1/
執行命令:
bin/hadoop namenode -format #格式化namenode,第一次啟動服務前執行的操作,以后不需要執行。
然后啟動hadoop:
sbin/start-all.sh
執行jps命令查看運行情況
通過簡單的jps命令雖然可以查看HDFS文件管理系統、MapReduce服務是否啟動成功,但是無法查看到Hadoop整個集群的運行狀態。我們可以通過hadoop dfsadmin -report
進行查看。用該命令可以快速定位出哪些節點掛掉了,HDFS的容量以及使用了多少,以及每個節點的硬盤使用情況。
停止hadoop命令:sbin/stop-all.sh
至此,hadoop集群搭建配置完畢。
7.可能的錯誤
The authenticity of host ‘0.0.0.0 (0.0.0.0)’ can’t be established.
解決方案:關閉SELINUX
-- 關閉SELINUX
# vim /etc/selinux/config
-- 注釋掉
#SELINUX=enforcing
#SELINUXTYPE=targeted
— 添加
SELINUX=disabled