本篇文章將從頭開始介紹Hadoop大數據平臺的一系列搭建工作,主要是搭建的具體操作步驟,思想方面涉及甚少,可以自行補充
虛擬機下載安裝
我使用的是VMware station12,下載地址為鏈接:http://pan.baidu.com/s/1geX11pL 密碼:uylp
本軟件為注冊軟件現提供一個注冊碼AV5R2-8LW53-484RP-H5YQZ-XU8RF
,大家也可以自行百度。
centos下載
因為工作中常用的為不帶可視化界面的版本,現提供一個centos6.8_64下載,地址點我
centos安裝
打開安裝好的VMware station,右鍵選擇新建虛擬機,選擇典型安裝。
選擇稍后安裝操作系統,點擊下一步
選擇linux操作系統,版本為CentOS64位
輸入計算機名稱以及你想要安裝的位置
指定磁盤容量,這里要說明的是你選擇的20G并不會一下占用你20G的硬盤空間,而是跟隨你虛擬機大小進行變化的
點擊完成即可
此時你會發現在你VMwarestation左面有了安裝的虛擬機,現在需要做兩件事。
- 設定虛擬機鏡像位置
-
更改電腦虛擬化設置。有的電腦并沒有開啟Intel虛擬化,因此不能安裝64位虛擬機。檢測的方法是點擊開啟此虛擬機,如果進入安裝界面則證明你的虛擬化是打開的,否則會報錯,這時你需要開機進入BIOS,Advanced-CPU Setup將Intel Virtualization Technology和VT-d打開
設置完成后選擇開啟此虛擬機,進入系統安裝界面。這里需要注意的就是skip測試你的安裝媒體。剩下的都是可視化的安裝,自己選擇就可以。
Linux環境配置
可選
1.通過useradd添加用戶(創建新用戶hadoop):useradd -m hadoop -s /bin/bash
2.為新用戶設置密碼passwd hadoop
3.給Hadoop用戶添加管理員權限 visudo,100行附近root ALL=(ALL)ALL下添加hadoop ALL=(ALL)ALL
- 修改Linux的主機名
-- centos6
輸入hostname可以查看現在的主機名稱
進入vi /etc/sysconfig/network
,修改內容
NETWORKING=yes
HOSTNAME=node-1
進入vi /etc/hosts
,修改內容原主機名為node-1
-- centos7
輸入hostname可以查看現在的主機名稱
進入vi /etc/hostname
,直接修改主機名
進入vi /etc/sysconfig/network
,修改內容(可以省略)
NETWORKING=yes
HOSTNAME=node-1
進入vi /etc/hosts
,修改內容原主機名為node-1
- 修改IP地址
如果你此時執行ifconfig命令你會發現并沒有常見的etho網卡,這時因為系統默認沒有啟動。需要將配置文件改成如下內容。首先進入配置文件vi /etc/sysconfig/network-scripts/ifcfg-eth0
(centos7可能不是eth0,可能為ens33,可使用ip addr查看)
DEVICE=eth0
ONBOOT=yes
BOOTPROTO=static
TYPE=Ethernet
IPADDR=192.168.213.100
NETMASK=255.255.255.0
這里需要注意的是ip地址的設置,首先你需要查看你的網絡連接方式,我采用默認的NAT模式,從下圖可以看到子網地址為192.168.213.0,因此我設置的為192.168.213.100。另外如果你想讓虛擬機聯網需要設置gateway和dns。
聯網配置:選擇NAT模式,將網絡設置為如下格式,然后再NAT中記錄網關地址,填入上面所說的文件中,重啟網絡服務即可。
配置好后用
service network restart
(centos7為 systemctl restart network.service)重啟網絡服務,用ifconfig
可以查看是否配置成功。然后可以在Windows上ping該ip查看是否可以ping通。ping通后就可以使用putty或者SecureCRT連接虛擬機了。
- 配置主機名和IP地址的映射關系
vi /etc/hosts
打開hosts文件,新增一行192.168.213.100 node-1
- 關閉防火墻
查看防火墻狀態
service iptables status
關閉防火墻
service iptables stop
設置防火墻開機不啟動
chkconfig iptables off
//centos7 臨時關閉
systemctl stop firewalld
//centos7 禁止開機啟動
systemctl disable firewalld
最后reboot或者通過hostname node-1
以及exit
,使我們配置的主機名生效 - centos7 yum源設置
yum install wget###該步驟報錯可以參考https://blog.csdn.net/weicuidi/article/details/52935100
cd /etc/yum.repos.d/
mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup
wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo
yum clean all
yum makecache
- 刪除Mac地址與網卡映射文件(centos7可省略)
我們想將這個虛擬機作為模板機,為了避免以后Mac地址沖突,因此要刪除Mac地址與網卡映射文件,以后啟動機器的時候會自動生成。
rm -rf /etc/udev/rules.d/70-persistent-net.rules
然后用halt
關機
創建克隆機
做大數據肯定不可能只有一個虛擬機,我們現在用配置好的這臺機器,克隆出幾臺虛擬機出來。
- 選擇模板機,然后點擊右鍵 –> 選擇Manage –> clone ->創建一個完整的克隆 –>
->配置機器的名字和存放位置 - 開啟虛擬機之前一定要生成一個新的mac地址(centos7可省略)
- 開啟虛擬機,修改其主機名和ip地址
如果在執行service network restart
命令時出現以下錯誤,則可能是沒有刪除模板機Mac地址與網卡映射文件,注意這個文件每次啟動都會自動生成的。解決方法是rm -rf /etc/udev/rules.d/70-persistent-net.rules
刪除該文件然后重啟
都修改完成后可以用一臺虛擬機依次ping其它虛擬機,可以ping通即可
修改hosts文件
在101機器上修改hosts文件,完成主機名和ip地址映射
ssh免密碼登錄
- 在第一臺機器上生成一對鑰匙,一個公鑰,一個私鑰
ssh-keygen –t rsa
執行上面的命令后,輸入四個回車 - 將公鑰拷貝到希望名登錄的機器
ssh-copy-id 192.168.213.102
執行上面的命令第一次要輸入第二臺機器的密碼 - 然后執行scp操作就不需要輸入密碼了
scp /etc/hosts root@192.168.213.102:/etc
,現在可以將修改好的hosts文件發送到其他具有公鑰的機器。
注意這種免密碼登錄是單向的,如果想相互免密碼登錄則需要在每一臺機器上都生成一個公鑰和一個私鑰。
Hadoop集群規劃
現在我們有四臺機器,分別為node-1,node-2,node-3,node-4,我們要做成下圖形式的架構。第一臺作為主節點,其他三臺作為從節點
Java安裝
將安裝包上傳到虛擬機上
- 安裝Java
- 創建文件夾
mkdir /usr/java
- 解壓
tar -zxvf jdk.tar.gz -C /usr/java
- 添加環境變量
進入文件vi /etc/profile
,按G到文件末尾,按o插入一行,加入下面語句
export JAVA_HOME=/usr/java/jdk1.8.0_111
export PATH=$PATH:$JAVA_HOME/bin
執行source /etc/profile
重新加載環境變量 - 若需要傳到其他虛擬機上則
scp –r /usr/java/ node-2:/usr
scp /etc/profile node-2:/etc
- 創建文件夾
Hadoop安裝
解壓Hadoop
mkdir /bigdata
tar -zxvf hadoop-2.6.5.tar.gz -C /bigdata/
在Hadoop安裝包目錄下有幾個比較重要的目錄
sbin : 啟動或停止Hadoop相關服務的腳本
bin :對Hadoop相關服務(HDFS,YARN)進行操作的腳本
etc : Hadoop的配置文件目錄
share :Hadoop的依賴jar包和文檔,文檔可以被刪掉
lib :Hadoop的本地庫(對數據進行壓縮解壓縮功能的)修改配置文件
進入到Hadoop的etc目錄下
cd /bigdata/hadoop-2.6.5/etc/hadoop
修改第1個配置文
vi hadoop-env.sh
export JAVA_HOME=/usr/java/jdk1.8.0_111
修改第2個配置文件
vi core-site.xml
<configuration>
<!-- 配置hdfs的namenode(老大)的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://node-1:9000</value>
</property>
<!-- 配置Hadoop運行時產生數據的存儲目錄,不是臨時的數據 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/bigdata/hadoop-2.6.5/tmp</value>
</property>
</configuration>
修改第3個配置文件
vi hdfs-site.xml
<configuration>
<!-- 指定HDFS存儲數據的副本數據量 -->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
修改第4個配置文件
mv mapred-site.xml.template mapred-site.xml
vi mapred-site.xml
<configuration>
<!-- 指定mapreduce編程模型運行在yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
修改第5個配置文件
vi yarn-site.xml
<configuration>
<!-- 指定yarn的老大(ResourceManager的地址) -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>node-1</value>
</property>
<!-- mapreduce執行shuffle時獲取數據的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
第6個配置文件slaves
vi slaves
原來的localhost要刪掉
node-2
node-3
node-4
將配置好的Hadoop安裝包拷貝到其他服務上
scp -r /bigdata node-2:/
scp -r /bigdata node-3:/
scp -r /bigdata node-4:/
在第一臺機器(NameNode所在的機器)上對hdfs進行初始化(格式化HDFS)
cd /bigdata/hadoop-2.6.5/bin/
./hdfs namenode -format
配置自己到自己的免密碼登錄,輸入當前機器的密碼
ssh-copy-id node-1
在第一臺機器(NameNode所在的機器)上對hdfs進行初始化(格式化HDFS)
cd /bigdata/hadoop-2.6.5/bin/
./hdfs namenode -format
格式化成功的標志是出現以下提示
配置自己到自己的免密碼登錄,輸入當前機器的密碼
ssh-copy-id node-1
啟動并測試Hadoop
cd /bigdata/hadoop-2.6.5/sbin/
./start-dfs.sh
./start-yarn.sh
可以使用jps檢查進程是否存在
也可以訪問網頁測試
訪問hdfs的管理界面
192.168.213.101:50070
訪問yarn的管理界面
192.168.213.101:8088
關閉hdfs/yarn服務
./stop-dfs.sh
./stop-yarn.sh
上傳文件到HDFS上
上傳文件
/bigdata/hadoop-2.6.5/bin/hdfs dfs -put /root/install.log hdfs://node-1:9000/
查看文件信息
/bigdata/hadoop-2.6.5/bin/hdfs dfs -ls hdfs://node-1:9000/
HDFS動態擴容
查看現在DataNode情況可以在Hadoop的bin目錄下執行./hdfs dfsadmin -report
,可以看到存活的DataNode。現在為3個。
下面為擴容的具體步驟:
- 準備一臺新的服務器(最好是跟原集群的機器相同配置)
- 為新的服務器準備系統環境(主機名、IP地址、防火墻、JDK環境、hosts文件)
- 將新的服務器連入原集群網絡(測試是否可以ping通)
- 從原集群中拷貝一個hadoop的安裝目錄到新節點上,并且刪除原datanode的工作目錄(這里配置的為tmp目錄)
- 修改/bigdata/hadoop-2.6.5/etc/hadoop/slaves 文件,加入新節點的主機名
- 在新節點上用命令:hadoop-daemon.sh start datanode 啟動datanode,就會自動加入集群
- 重啟start-dfs,start-yarn
hadoop集群恢復終極解決方案
- 在每一臺機器上用命令殺掉所有java進程: killall java
- 在每一臺機器上刪掉hadoop安裝目錄中的tmp文件夾
- 在node-1上格式化namenode: hadoop namenode -format
- 在node-1上執行腳本來啟動整個集群: start-dfs.sh
注意用這種方案會重新格式化hdsf,意味著原來上傳的文件會全部丟失!!!
補充:關閉HDFS集群的命令:在node-1上: stop-dfs.sh
關閉YARN集群的命令:在node-1上: stop-yarn.sh