Hadoop集群搭建

![Uploading Paste_Image_223771.png . . .]
Hadoop集群搭建步驟
一、環(huán)境搭建

  1. 配置本機(jī)hostname
  2. 配置java運(yùn)行環(huán)境jdk
  3. 配置ssh免密碼登錄
  4. 安裝、配置hadoop
  5. 測試hadoop

以上過程可以分為2個(gè)大的步驟

  1. 配置系統(tǒng)環(huán)境以使hadoop能正常運(yùn)行
  2. 配置hadoop配置文件讓hadoop能正常運(yùn)行

二、為什么需要配置相應(yīng)的軟件

  1. 本次集群搭建我們希望使用2臺機(jī)器作為集群
    一臺機(jī)器作為主節(jié)點(diǎn),共運(yùn)行namenode、SecondaryNameNode、ResourceManager 3個(gè)java守護(hù)進(jìn)程
    另外一臺作為slave節(jié)點(diǎn),運(yùn)行DataNode、NodeManager進(jìn)程
    其中,master是一個(gè)資源調(diào)度的管理者,假如集群中用于成千上萬的機(jī)器,master就是這些機(jī)器中的管理者,它負(fù)責(zé)怎個(gè)集群的任務(wù)調(diào)度。
    Slave作為計(jì)算節(jié)點(diǎn),將會(huì)執(zhí)行master指定的相應(yīng)任務(wù),并通過心跳包報(bào)告任務(wù)進(jìn)度及結(jié)果等等數(shù)據(jù)。

2.在環(huán)境搭建的第一個(gè)大步驟中,配置jdk是因?yàn)閔adoop是一個(gè)以java語言實(shí)現(xiàn)的項(xiàng)目,它需要運(yùn)行在java環(huán)境下,比如namenode、DataNode等等進(jìn)程都是一個(gè)個(gè)java進(jìn)程。
在系統(tǒng)中如果需要查看可以使用jps命令查看。
配置ssh免密碼登錄時(shí)因?yàn)椋琱adoop的每個(gè)進(jìn)程間會(huì)相互調(diào)用、并發(fā)送指令,那么你就能想到在集群工作方式中有兩臺獨(dú)立的計(jì)算機(jī)需要通信的情況,計(jì)算機(jī)A直接給計(jì)算機(jī)B發(fā)送指令,那么計(jì)算機(jī)B需要驗(yàn)證計(jì)算機(jī)A發(fā)送過來的身份信息,如果只是發(fā)送一兩次命令還好我們可以人為的輸入身份信息,但是在hadoop集群調(diào)度的時(shí)候需要頻繁的執(zhí)行這樣的操作.
所以配置ssh免密碼登錄時(shí)為了通過配置讓計(jì)算機(jī)自動(dòng)完成身份驗(yàn)證這個(gè)步驟。

三、搭建集群

  1. Jdk
    首先我們在一臺機(jī)器(master)上配置jdk然后通過vm的克隆公共克隆機(jī)器為slave節(jié)點(diǎn)。
    拷貝你下載的jdk,通過tar –zxf 命令解壓(可添加 –C 參數(shù)指定解壓后文件保存路徑,如果不指定默認(rèn)存在壓縮包路徑),如下圖:
Paste_Image.png

然后再通過sudo vim /etc/profil配置環(huán)境變量,如下圖所示

Paste_Image.png

然后通過source /etc/profile將profile寫入系統(tǒng),寫入后需要重啟計(jì)算機(jī),否則關(guān)閉計(jì)算機(jī)后打開其他終端環(huán)境變量不會(huì)生效,可以通過java –version和javac命令測試是否配置成功。

  1. 克隆機(jī)器
    由于我們需要兩臺機(jī)器作為集群,在vm中有克隆機(jī)器的功能,所以我們克隆機(jī)器作為slave節(jié)點(diǎn),克隆完成后需要重新配置機(jī)器的ip地址為slave01的地址master同一局域網(wǎng)的ip即可,可以在master機(jī)器上通過ifconfig查看master的ip地址。
    完成后通過ifconfig查看兩臺機(jī)器的ip。如下圖
Paste_Image.png
Paste_Image.png
  1. ssh免密碼
    centos系統(tǒng)自帶了ssh,并且自帶了秘鑰生成工具ssh-keygen,在終端中配置ssh免密碼登錄步驟如下
  1. 生成秘鑰
  2. 將秘鑰配置在本機(jī),并且將需要將slave01的ssh公鑰發(fā)送給master節(jié)點(diǎn)
    Ssh-keygen –t rsa 生成密匙
    ssh-copy-id localhost 將密匙拷貝到authorized_keys
    如圖,另外一臺機(jī)器同樣。
Paste_Image.png

這樣就可以通過ssh localhost免密碼登錄本機(jī)了,但是還不能從其他機(jī)器登錄本機(jī),我們就可以通過scp 命令將公鑰發(fā)送給master機(jī)器將公鑰寫入authorized_keys再次發(fā)送給其他slave機(jī)器。如下圖。

Paste_Image.png

這條命名中hadoop是你們master機(jī)器的用戶名,@后面是你master機(jī)器的ip地址,:后面是你想將該文件發(fā)送到的位置,這樣就將文件發(fā)送到master上面了,然后再master機(jī)器上通過cat命令將公鑰追加到authorized_keys,然后在將master的authorized_keys重新發(fā)回給slave,如下圖

Paste_Image.png

這樣兩臺機(jī)器就可以相互通過ssh+ip地址的方式訪問彼此了。

  1. hadoop配置文件
    在官網(wǎng)下載hadoop后將其解壓,就可以正式配置hadoop了,機(jī)器方式需要配置解壓文件中的etc/hadoop目錄下的6個(gè)文件分別是:
    hadoop-env.sh 這里面修改{JAVA_HOME}為你的jdk安裝路徑
    core-site.xml
    hdfs-site.xml
    mapred-site.xml
    yarn-site.xml
    slaves
    附上全部配置:

    <property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:8020</value>
    </property>
    <property>
    <name>hadoop.tmp.dir</name>
    <value>你想存放的臨時(shí)文件路徑</value>
    </property>


    <property>
    <name>dfs.replication</name>
    <value>3</value>
    </property>


    <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
    </property>


    <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    </property>

最后將slaves中的localhost刪除,并寫入你的slave節(jié)點(diǎn)的ip地址,這樣就完成了全部配置工作。然后格式化一下hadf的文件系統(tǒng)(多次格式化會(huì)出現(xiàn)集群id不一樣,可以通過刪除core-site.xlm中臨時(shí)文件中文件)

bin/hdfs namenode –format 命令用來格式化hdfs文件系統(tǒng)

完成以上步驟后就可以在master上面通過運(yùn)行sbin目錄下的start-all.sh就可以運(yùn)行hadoop了,運(yùn)行成功后可以通過jps命令查看master和slave機(jī)器的進(jìn)程,如圖

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • 目錄 集群簡介 服務(wù)器準(zhǔn)備 環(huán)境和服務(wù)器設(shè)置 JDK環(huán)境安裝 Hadoop安裝部署 啟動(dòng)集群 測試 集群簡介 在進(jìn)...
    Singer_Au閱讀 2,749評論 0 8
  • hadoop集群HA環(huán)境搭建 準(zhǔn)備工具 VMware12安裝包, 破解序列號:5A02H-AU243-TZJ49-...
    485b1aca799e閱讀 2,148評論 1 1
  • 看到題目有沒有一種高大上的感覺?毛線,當(dāng)前是個(gè)人、是個(gè)公司都在說自己搞大數(shù)據(jù),每天沒有幾個(gè)PB的數(shù)據(jù)入庫,每天沒有...
    丁小晶的晶小丁閱讀 4,528評論 0 50
  • 為了能夠在生產(chǎn)環(huán)境中搭建Hadoop集群,先決定在虛擬機(jī)中搭建一個(gè)測試環(huán)境,跑通整個(gè)流程。 一:安裝環(huán)境 Cent...
    Kavim閱讀 912評論 0 3
  • 之前的有點(diǎn)忘記了,這里在云筆記拿出來再玩玩.看不懂的可以留言 大家可以嘗試下Ambari來配置Hadoop的相關(guān)環(huán)...
    HT_Jonson閱讀 3,014評論 0 50