文/胡晨川
我是Linux外行,hadoop外行,java更外行,Scala聽也沒聽過,在我腦海中,Spark一直只是我的英文名。但是,作為一名數(shù)據(jù)分析師,我怎么可以完全不了解大數(shù)據(jù)的應用呢?于是,完全是外行的我,不僅打算開始學習spark,還要將hive、pig、Hbase等都嘗一嘗。
第一步,從hadoop開始!經過幾天的嘗試,配置好了虛擬機中的完全分布式hadoop,寫成以下冗長的筆記。
首先,是在自己的電腦上安裝3個Linux系統(tǒng)的虛擬機
我是Mac,裝了vmware fusion。在另一臺pc機上,裝了vmware workstation。
Linux我選擇了ubuntu14。具體怎么把Linux裝起來的不多說了,傻瓜式操作。
配置Linux
這部分分為三個部分:一是獲得Linux的root權限;二是安裝java;三是設置ssh設置。由于我是Linux文盲,所以將一些命令標注會擇機寫出來,便于我以后記憶。
我配置的三臺Linux機子分別命名為:master、slave1、slave2。未來hadoop中,master就是主節(jié)點,兩臺slave就是從節(jié)點。
獲取Linux中的root權限
在ubuntu中打開命令終端窗口:control+alt+T
自動補全命令:tab
看幫助內容:--help
先安裝vim:sudo apt-get install vim
然后輸入:sudo vim /usr/share/lightdm/lightdm.conf.d/50-ubuntu.conf(vim需安裝)
在彈出的編輯框里輸入:greeter-show-manual-login=true 保存關閉。
為了給root設置密碼,在終端中輸入:sudo passwd root。
關機重啟在多出的登錄框里輸入root 和設置的密碼!
在剛修改完root權限自動登錄后,發(fā)現(xiàn)開機出現(xiàn)以下提示:
Error found when loading /root/.profile
stdin:is not a tty
…………
解決方法:在終端中用命令gedit /root/.profile,打開文件后找到“mesg n”,
將其更改為“tty -s && mesg n”。
sudo:超級用戶權限命令=root權限
apt-get install:安裝軟件
vim:vim是一個編輯器和gedit功能一樣
安裝java
創(chuàng)建安裝java的文件夾:mkdir /usr/lib/java
然后把下載好的java安裝包放到這個目錄里
操作區(qū)域定位到java文件夾:cd /usr/lib/java
解壓安裝包:tar -xvf jdk-8u73-linux-x64.gz
修改環(huán)境變量:vim ~/.bashrc
在bashrc文件中添加內容:
export JAVA_HOME=/usr/lib/java/jdk1.8.0_73
export JRE_HOME=${JAVA_HOME}/jre
export CLASS_PATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
執(zhí)行生效命令:source ~/.bashrc
查看java版本:java -version
mkdir:創(chuàng)建文件夾命令
cd:工作目錄定位命令,經常與文件查看命令ls一起用
tar -xvf:解壓縮命令
SSH設置
安裝ssh:apt-get install ssh
安裝rsync: apt-get install rsync
創(chuàng)建ssh-key: ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
將dsa.pub文件當中的內容追加到公鑰中:cat ~/.ssh/id_dsa.pub >> /.ssh/authorized_keys
authorized_keys得放在.ssh文件夾當中,并將id_dsa.pub里面的內容復制給authorized_keys
啟動ssh服務:ssh start
驗證服務是否正常啟動:ps -e |grep ssh
在slave機器下也要創(chuàng)建ssh-key: ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
該命令執(zhí)行后,會在root文件夾下出現(xiàn).ssh文件夾,里面有key
cat ~/.ssh/id_dsa.pub >> authorized_keys 這行代碼至關重要,當輸入ssh localhost 不需要密碼時,說明免密碼登錄設置完成。
完成master與slave之間的通信
首先,要固定好master和slave的IP地址,千萬不要選擇動態(tài)匹配,你會奔潰的。
接著,修改集群中的host配置文件
打開命令:到文件夾中手動打開host文件或者輸入:
vim /etc/hosts
添加:
192.168.236.135 master
192.168.236.134 slave1
192.168.236.130 slave2
關閉ubuntu的防火墻,使得ssh通訊能夠進行:ufw allow ssh
要使得master和slave之間實現(xiàn)免密碼通信,還要把master機器中的id_dsa.pub 文件復制到slave機器的.ssh文件夾中,并命名為authorized_keys。我把slave的id_dsa.pub也互相加到了各自的authorized_keys當中。這樣,在任何機器終端輸入 ssh 機器名稱,就能進入那臺機器進行操作,比如:ssh slave1
scp ~/.ssh/id_dsa.pub slave1@192.168.236.134:~/.ssh/authorized_keys
scp ~/.ssh/id_dsa.pub slave2@192.168.236.130:~/.ssh/authorized_keys
查看隱藏的文件,即以點開頭的文件或文件夾:control+h
scp:通過ssh進行跨機器間的復制命令
cp:本地文件復制
如何結束ping命令?control+c
查看ip連接的屬性:ifconfig或者nm-tool
安裝Hadoop
提醒各位,不要去下載最新的hadoop-2.7.2等版本的進行安裝,因為最新版本的中文參考文獻不多,而且hadoop-2.x以后的版本和hadoop-1.x有很大不同。我開始安裝了2.7.2版本,但是手頭的資料都是機遇hadoop-1.2.1的,所以對于我這個菜鳥來說,配置單機版和偽分布式還勉強可以,但是完全分布式怎么都不成功,最后刪了重新配置了1.2.1版本的。
cd usr
mkdir hadoop #在usr文件夾下創(chuàng)建Hadoop文件夾
tar xzf hadoop-1.2.1.tar.gz #解壓縮Hadoop安裝文件
cd /usr/hadoop/hadoop-1.2.1/conf
vim hadoop-env.sh #將java的路徑添加到Hadoop的配置文件當中
文件中添加:export JAVA_HOME=/usr/lib/java/jdk1.8.0_73
source hadoop-env.sh #使得文件修改生效
vim ~/.bashrc #設置用戶環(huán)境參數(shù),使得Hadoop的命令和java命令能夠在根目錄下使用
在文件中添加:
export JAVA_HOME=/usr/lib/java/jdk1.8.0_73
export JRE_HOME=${JAVA_HOME}/jre
export CLASS_PATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:/usr/hadoop/hadoop-1.2.1/bin:$PATH
source ~/.bashrc #使修改生效
hadoop version #查看hadoop的版本
若能正確顯示版本,則恭喜單機安裝成功了!
單機模式運行wordcount例子
cp LICENSE.txt input #把license.txt復制到input文件夾當中
cd .. #回到上一級目錄
hadoop jar hadoop-examples-1.2.1.jar wordcount input output #運行wordcount例子,結果放到output文件夾當中
cat output/* #結果呈現(xiàn)
單機模式的wordcount成功運行,第一個里程碑達成!~
偽分布式Hadoop安裝
我們更進一步,來偽分布式架構。
現(xiàn)在hadoop-1.2.1文件夾下創(chuàng)建一些文件夾:
root@master:/usr/hadoop/hadoop-1.2.1# mkdir tmp
root@master:/usr/hadoop/hadoop-1.2.1# mkdir hdfs
root@master:/usr/hadoop/hadoop-1.2.1# mkdir hdfs/data
root@master:/usr/hadoop/hadoop-1.2.1# mkdir hdfs/name
root@master:/usr/hadoop/hadoop-1.2.1# ls
對于偽分布式和完全分布式,都需要修改以下配置文件
core-site.xml 主要是配置hdfs的地址和端口
hdfs-site.xml 主要配置replication,理解為數(shù)據(jù)的備份
mapred-site.xml 修改Hadoop的mapreduce的配置文件,主要是配置jobtracker的地址和端口
cd conf #定位到conf文件夾下
vim core-site.xml #進入編輯
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop/hadoop-1.2.1/tmp</value>
</property>
</configuration>
vim hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/usr/hadoop/hadoop-1.2.1/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/hadoop/hadoop-1.2.1/hdfs/data</value>
</property>
</configuration>
vim mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
通過以上配置完成了最簡單的偽分布式配置。
接下來做Hadoop的namenode格式化:
root@master:/usr/hadoop/hadoop-1.2.1/conf# cd ~
root@master:~# hadoop namenode -format
啟動Hadoop
start-all.sh
使用java自帶的命令查詢出所有的守護進程
jps
接下來使用Hadoop中的監(jiān)控集群的web 頁面查看運行情況:
http://localhost:50030/jobtracker.jsp
http://localhost:50060/tasktracker.jsp
http://localhost:50070/dfshealth.jsp
偽分布式平臺下的wordcount例子
在dfs中創(chuàng)建input文件夾
root@master:~# hadoop dfs -mkdir input
在http://localhost:50070/dfshealth.jsp中點擊browse the filesystem可以查看文件夾
把文件復制到input中
root@master:~# hadoop dfs -copyFromLocal /usr/hadoop/hadoop-1.2.1/LICENSE.txt input
root@master:~# cd /usr/hadoop/hadoop-1.2.1
root@master:/usr/hadoop/hadoop-1.2.1# ls
運行word count
root@master:/usr/hadoop/hadoop-1.2.1# hadoop jar hadoop-examples-1.2.1.jar wordcount input output
查看下運行結果
hadoop dfs -cat output/*
查看Hadoop dfs中的文件列表
hadoop dfs -ls
hadoop有自己的一套命令規(guī)則,開頭為hadoop dfs xx,詳情:http://my.oschina.net/kevin701/blog/228684
關閉hadoop服務
stop-all.ssh
好!第二個里程碑達成了!
完全分布式hadoop搭建
將hadoop復制到兩臺slave機器的/usr/hadoop/hadoop-1.2.1文件夾當中。先在master當中壓縮hadoop-1.2.1文件夾下的內容,打包成tar.gz文件,然后復制過去。
壓縮包
root@master:/usr/hadoop# tar zcvf hadoop.tar.gz hadoop-1.2.1
復制hadoop.tar.gz到slave中
scp -r hadoop.tar.gz root@slave1:/usr/
解壓縮要先進入slave
ssh slave1
cd /usr
mkdir hadoop
cp hadoop.tar.gz hadoop #將壓縮包放到hadoop文件夾當中,最好是先在slave當中建好hadoop文件夾,然后把hadoop.tar.gz復制過去。
tar xzf hadoop.tar.gz
slave1 和slave2的操作方式相同。
都復制過去后,要在slave當中設置環(huán)境變量,設置方式與之前相同。
然后啟動hadoop測試。
查看localhost:50030/jobtracker.jsp測試成功后,開始配置完全分布式系統(tǒng)。
修改master的core.site.xml配置文件
root@master:/usr/hadoop/hadoop-1.2.1/conf# ls
vim core-site.xml
將里面的localhost替換為master,且在兩臺slave當中也做同樣的修改。
其次修改master和slave當中的mapred-site.xml文件,把域名localhost修改為master
最后修改master、slave1、slave2上的hdfs-site.xml文件,將dfs.replication的value值改為3,這樣我們的數(shù)據(jù)就會有3個副本。
修改兩臺機器中hadoop配置文件的masters和slaves文件
root@master:/usr/hadoop/hadoop-1.2.1/conf# vim masters
將里面的localhost改為master
root@master:/usr/hadoop/hadoop-1.2.1/conf# vim slaves
將里面改為:
master
slave1
slave2
這樣,master同時作為了數(shù)據(jù)節(jié)點和主節(jié)點。
在兩臺slave上也要做相應的修改。
測試hadoop分布式集群環(huán)境
首先需要清除在hadoop-1.2.1文件夾中的tmp文件夾及其子目錄下的內容清空,還要清除根目錄下tmp文件夾中hadoop相關的內容。最后要把自定義的hdfs文件夾中的data和name文件夾中的內容清空。
root@master:/usr/hadoop/hadoop-1.2.1# rm -rf tmp/*
首先要清理在根目錄下的tmp文件夾中,以hadoop相關的所有文件都刪除掉
root@master:rm /tmp/hadoop*
然后需要清空hadoop-1.2.1文件夾中的tmp文件夾和hdfs文件夾下的內容。但不能盲目的將所有子目錄都刪除掉。我采用了手動進入每個文件夾,將里面的內容刪除掉。
之前用rm命令刪除了文件夾下的所有內容,導致啟動時沒有namenode任務。而且在web觀察上,live node只有1,理論上應該有3。但并不知道具體原因。后來回復了文件后,手動進入各個文件夾清楚里面的內容。
在slave當中也要做相同的清空操作。
在master節(jié)點格式化集群的文件系統(tǒng)
hadoop namenode -format
格式化后啟動
start-all.sh
終于成功啟動。輸入jps查看進程:
master上,顯示:
root@master:~# jps
3200 TaskTracker
2645 NameNode
2793 DataNode
3050 JobTracker
2957 SecondaryNameNode
3455 Jps
在slave上顯示:
root@slave1:~# jps
2658 DataNode
2786 TaskTracker
2918 Jps
到此為止,完全分布式的hadoop就配置好了。接下去就要開始安裝spark啦!另外,有了hadoop的基礎,hive、pig、hbase等hadoop架構下的工具都可以開始安裝部署。大數(shù)據(jù)之路由此打開!~
最后,關機睡覺
shutdown -h now