1.簡介:
hadoop中NameNode可以有多個(目前只支持2個)。每一個都有相同的職能。一個是active狀態的,一個是standby狀態的。當集群運行時,只有active狀態的NameNode是正常工作的,standby狀態的NameNode是處于待命狀態的,時刻同步active狀態NameNode的數據。一旦active狀態的NameNode不能工作,standby狀態的NameNode就可以轉變為active狀態的,就可以繼續工作了。
2個NameNode的數據其實是實時共享的。新HDFS采用了一種共享機制,Quorum Journal Node(JournalNode)集群或者Nnetwork File System(NFS)進行共享。NFS是操作系統層面的,JournalNode是hadoop層面的,我們這里使用JournalNode集群進行數據共享(這也是主流的做法)。
JournalNode的架構圖如下:
兩個NameNode為了數據同步,會通過一組稱作JournalNodes的獨立進程進行相互通信。當active狀態的NameNode的命名空間有任何修改時,會告知大部分的JournalNodes進程。standby狀態的NameNode有能力讀取JNs中的變更信息,并且一直監控edit log的變化,把變化應用于自己的命名空間。standby可以確保在集群出錯時,命名空間狀態已經完全同步了。
對于HA集群而言,確保同一時刻只有一個NameNode處于active狀態是至關重要的。否則,兩個NameNode的數據狀態就會產生分歧,可能丟失數據,或者產生錯誤的結果。為了保證這點,這就需要利用使用ZooKeeper了。首先HDFS集群中的兩個NameNode都在ZooKeeper中注冊,當active狀態的NameNode出故障時,ZooKeeper能檢測到這種情況,它就會自動把standby狀態的NameNode切換為active狀態。
hadoop-ha包含HDFS的HA和YARN的HA,下面就2個部件的HA進行搭建。
JournalNodes:namenode數據共享
ZooKeeper:心跳檢測
hadoop-ha包含HDFS的HA和YARN的HA,
2.環境準備 (ps: The picture is replicating)
(1)各服務器其修改主機名,添加hosts文件,關閉防火墻
[root@c7001 ~]# cat >> /etc/hosts << EOF
192.168.16.135 c7001
192.168.16.80 c7002
192.168.16.95 c7003
192.168.16.97 c7004
192.168.16.101 c7005
EOF
(2)c7001配置ssh免密登陸,用于啟動集群
ssh-keygen -t rsa
sh-copy-id -i ~/.ssh/id_rsa.pub c7001
ssh-copy-id -i ~/.ssh/id_rsa.pub c7002
ssh-copy-id -i ~/.ssh/id_rsa.pub c7003
ssh-copy-id -i ~/.ssh/id_rsa.pub c7004
ssh-copy-id -i ~/.ssh/id_rsa.pub c7005
(3) 各服務器配置jdk1.7+
[root@c7001 ~]# tar zxf jdk-8u171-linux-x64.tar.gz -C /opt/
[root@c7001 opt]# mv jdk1.8.0_171/ jdk1.8
[root@c7001 opt]# vim /etc/profile
export JAVA_HOME=/opt/jdk1.8
export PATH=$PATH:$JAVA_HOME/bin
[root@c7001 ~] source /etc/profile
[root@c7001 opt]# java -version
java version "1.8.0_171
(4)安裝Hadoop集群
[root@c7001 ~]# tar zxf hadoop-2.7.6.tar.gz -C /opt/
在c7001終端修改hadoop配置文件,這里需要修改的有
core-site.xml、hdfs-site.xml、mapreduce-site.xml、yarn-site.xml、hadoop-env.sh、mapred-env.sh、yarn-env.sh這7個文件
core-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://bdcluster</value>
</property>
<!-- 指定hadoop臨時目錄 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop-2.7.6/tmp</value>
</property>
<!-- 指定zookeeper地址 -->
<property>
<name>ha.zookeeper.quorum</name>
<value>c7003:2181,c7004:2181,c7005:2181</value>
</property>
<property>
<name>ha.zookeeper.session-timeout.ms</name>
<value>3000</value>
</property>
</configuration>
hdfs-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!--指定hdfs的nameservice為bdcluster,需要和core-site.xml中的保持一致 -->
<property>
<name>dfs.nameservices</name>
<value>bdcluster</value>
</property>
<!-- bdcluster下面有兩個NameNode,分別是nn1,nn2 -->
<property>
<name>dfs.ha.namenodes.bdcluster</name>
<value>nn1,nn2</value>
</property>
<!-- nn1的RPC通信地址 -->
<property>
<name>dfs.namenode.rpc-address.bdcluster.nn1</name>
<value>c7001:9000</value>
</property>
<!-- nn2的RPC通信地址 -->
<property>
<name>dfs.namenode.rpc-address.bdcluster.nn2</name>
<value>c7002:9000</value>
</property>
<!-- nn1的http通信地址 -->
<property>
<name>dfs.namenode.http-address.bdcluster.nn1</name>
<value>c7001:50070</value>
</property>
<!-- nn2的http通信地址 -->
<property>
<name>dfs.namenode.http-address.bdcluster.nn2</name>
<value>c7002:50070</value>
</property>
<!-- 指定NameNode的元數據在JournalNode上的存放位置 -->
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://c7003:8485;c7004:8485;c7005:8485/bdcluster</value>
</property>
<!-- 指定JournalNode在本地磁盤存放數據的位置 -->
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/opt/hadoop-2.7.6/tmp/journal</value>
</property>
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<!-- 配置失敗自動切換實現方式 -->
<property>
<name>dfs.client.failover.proxy.provider.bdcluster</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
</value>
</property>
<!-- 配置隔離機制,多個機制用換行分割,即每個機制暫用一行 -->
<property>
<name>dfs.ha.fencing.methods</name>
<value>
sshfence
shell(/bin/true)
</value>
</property>
<!-- 使用sshfence隔離機制時需要ssh免密碼登陸 -->
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/root/.ssh/id_rsa</value>
</property>
<!-- 配置sshfence隔離機制超時時間 -->
<property>
<name>dfs.ha.fencing.ssh.connect-timeout</name>
<value>30000</value>
</property>
<!--指定namenode名稱空間的存儲地址 -->
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///opt/hadoop-2.7.6/hdfs/name</value>
</property>
<!--指定datanode數據存儲地址 -->
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///opt/hadoop-2.7.6/hdfs/data</value>
</property>
<!--指定數據冗余份數 -->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<!-- 配置 MapReduce JobHistory Server 地址 ,默認端口10020 -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>0.0.0.0:10020</value>
</property>
<!-- 配置 MapReduce JobHistory Server web ui 地址, 默認端口19888 -->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>0.0.0.0:19888</value>
</property>
</configuration>
yarn-site.xml
<?xml version="1.0"?>
<configuration>
<!--開啟resourcemanagerHA,默認為false -->
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
<!--開啟自動恢復功能 -->
<property>
<name>yarn.resourcemanager.recovery.enabled</name>
<value>true</value>
</property>
<!-- 指定RM的cluster id -->
<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>yrc</value>
</property>
<!--配置resourcemanager -->
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>
<!-- 分別指定RM的地址 -->
<property>
<name>yarn.resourcemanager.hostname.rm1</name>
<value>c7001</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm2</name>
<value>c7002</value>
</property>
<!-- <property> <name>yarn.resourcemanager.ha.id</name> <value>rm1</value>
<description>If we want to launch more than one RM in single node,we need
this configuration</description> </property> -->
<!-- 指定zk集群地址 -->
<property>
<name>ha.zookeeper.quorum</name>
<value>c7003:2181,c7004:2181,c7005:2181</value>
</property>
!--配置與zookeeper的連接地址-->
<property>
<name>yarn.resourcemanager.zk-state-store.address</name>
<value>c7003:2181,c7004:2181,c7005:2181</value>
</property>
<property>
<name>yarn.resourcemanager.store.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore
</value>
</property>
<property>
<name>yarn.resourcemanager.zk-address</name>
<value>c7003:2181,c7004:2181,c7005:2181</value>
</property>
<property>
<name>yarn.resourcemanager.ha.automatic-failover.zk-base-path</name>
<value>/yarn-leader-election</value>
<description>Optionalsetting.Thedefaultvalueis/yarn-leader-election
</description>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
設置環境變量文件
hadoop-env.sh & mapred-env.sh & yarn-env.s
export JAVA_HOME=/opt/jdk1.8
export CLASS_PATH=$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export HADOOP_HOME=/opt/hadoop-2.7.6
export HADOOP_PID_DIR=/opt/hadoop-2.7.6/pids
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="$HADOOP_OPTS-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_PREFIX=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HDFS_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
slaves
c7001
c7002
c7003
c7004
c7005
配置完畢后發送到其他主機
scp -r /opt/hadoop-2.7.6/etc/hadoop root@c7002:/opt/hadoop-2.7.6/etc/
scp -r /opt/hadoop-2.7.6/etc/hadoop root@c7003:/opt/hadoop-2.7.6/etc/
scp -r /opt/hadoop-2.7.6/etc/hadoop root@c7004:/opt/hadoop-2.7.6/etc/
scp -r /opt/hadoop-2.7.6/etc/hadoop root@c7005:/opt/hadoop-2.7.6/etc/
(5)啟動Hadoop集群 (jps 確認進程啟動)
先啟動zookeeper集群,部署看上一篇
http://www.lxweimin.com/p/f562d6d85f93
分別在c7003、c7004、c7005上執行如下命令啟動zookeeper集群;
[root@c7003 bin]$ sh zkServer.sh start
[root@c7004 bin]$ sh zkServer.sh start
[root@c7005 bin]$ sh zkServer.sh start
啟動journalnode集群
在c7001上執行如下命令完成JournalNode集群的啟動
[root@c7001 hadoop-2.7.6]$ sbin/hadoop-daemons.sh start journalnode
格式化zkfc,讓在zookeeper中生成ha節點
[root@c7001 hadoop-2.7.6]# bin/hdfs zkfc -formatZK
格式成功后,查看zookeeper中可以看到
[root@c7003 bin]# ./zkCli.sh -server c7003:2181
[zk: localhost:2181(CONNECTED) 1] ls /hadoop-ha
[bdcluster]
格式化hdfs
[root@c7001 hadoop-2.7.6]# bin/hadoop namenode -format
啟動NameNode
首先在c7001上啟動active節點,在c7001上執行如下命令
[root@c7001 hadoop-2.7.6]# sbin/hadoop-daemons.sh start namenode
在c7002上同步namenode的數據,同時啟動standby的namenod,命令如下
把NameNode的數據同步到c7002上
[root@c7002 hadoop-2.7.6]# bin/hdfs namenode -bootstrapStandby
啟動c7002上的namenode作為standby
[root@c7002 hadoop-2.7.6]$ sbin/hadoop-daemon.sh start namenode
啟動datanode
在c7001上執行如下命令
[root@c7001 hadoop-2.7.6]$ sbin/hadoop-daemons.sh start datanode
啟動yarn
在作為資源管理器上的機器上啟動,我這里是c7001,執行如下命令完成year的啟動
[root@c7001 hadoop-2.7.6]$ sbin/start-yarn.sh
啟動ZKFC
在c7001上執行如下命令,完成ZKFC的啟動
[root@c7001 hadoop-2.7.6]$ sbin/hadoop-daemons.sh start zkfc
全部啟動完后分別在c7001、c7002、c7003、c7004、c7005上執行jps是可以看到下面這些進程的
各節點jps PID進程
#c7001上的java PID進程
[root@c7001 hadoop-2.7.6]$ jps
7857 DataNode
7270 JournalNode
8118 NodeManager
8550 DFSZKFailoverController
8007 ResourceManager
8968 NameNode
9065 Jps
#c7002上的java PID進程
[root@c7002 hadoop-2.7.6]$ jps
6929 DFSZKFailoverController
6738 NodeManager
6441 NameNode
6603 DataNode
6221 JournalNode
7615 Jps
#c7003上的java PID進程
[root@c7003 hadoop-2.7.6]$ jps
6040 DataNode
6473 Jps
4764 QuorumPeerMain
5870 JournalNode
6175 NodeManager
#c7004上的java PID進程
[root@c7004 hadoop-2.7.6]$ jps
4739 QuorumPeerMain
5875 JournalNode
6180 NodeManager
6475 Jps
6046 DataNode
#c7005上的java PID進程
6227 NodeManager
6518 Jps
6091 DataNode
5916 JournalNode
4813 QuorumPeerMain
測試訪問web
測試高可用
此時在c7001上執行如下命令關閉c7001上的namenode
[root@c7001 hadoop-2.7.6]$ sbin/hadoop-daemon.sh stop namenode
再次查看c7002上的namenode,發現自動切換為active了!
各服務端口(參考)
http://www.cnblogs.com/netbloomy/p/6660131.html