Spark On YARN 集群安裝部署

學(xué)習(xí)spark,記錄下來(lái)搭建環(huán)境及軟件版本,供大家使用

軟件環(huán)境

Centos6.5
jdk1.7.0_79
hadoop-2.7.3
scala-2.10.4
spark-2.0.0-bin-hadoop2.7

0. 序

所有l(wèi)inux系統(tǒng)均在root用戶下使用,目的是為了省去權(quán)限麻煩,所以一律采用root用戶

1. 環(huán)境準(zhǔn)備

修改主機(jī)名

我們將搭建1個(gè)master,1個(gè)slave的方案。首先修改主機(jī)名vi /etc/hostname,在master上修改為master,其中一個(gè)slave上修改為slave1。

配置hosts

在每臺(tái)主機(jī)上修改host文件

vi /etc/hosts

10.1.1.107      master
10.1.1.108      slave1

配置之后ping一下用戶名看是否生效

ping slave1

SSH 免密碼登錄

默認(rèn)情況下,Centos6.5已經(jīng)自帶了Openssh server。如果沒(méi)有的話,可以使用以下命令安裝

apt-get install openssh-server

在所有機(jī)器上都生成私鑰和公鑰

ssh-keygen -t rsa   # 一路回車

需要讓機(jī)器間都能相互訪問(wèn),就把每個(gè)機(jī)子上的id_rsa.pub發(fā)給master節(jié)點(diǎn),傳輸公鑰可以用scp來(lái)傳輸。

scp ~/.ssh/id_rsa.pub root@master:~/.ssh/id_rsa.pub.slave1

在master上,將所有公鑰加到用于認(rèn)證的公鑰文件authorized_keys

cat ~/.ssh/id_rsa.pub* >> ~/.ssh/authorized_keys

將公鑰文件authorized_keys分發(fā)給每臺(tái)slave

scp ~/.ssh/authorized_keys root@slave1:~/.ssh/

在每臺(tái)機(jī)子上驗(yàn)證SSH無(wú)密碼通信

ssh master
ssh slave1

登陸后,如果想退出,則可以使用'

exit

關(guān)閉防火墻

由于多個(gè)端口的訪問(wèn),所以最好在所有機(jī)器上關(guān)閉防火墻,生產(chǎn)環(huán)境則需要將端口號(hào)放入防火墻中

service iptables stop

結(jié)果如下

iptables:將鏈設(shè)置為政策 ACCEPT:filter [確定]
iptables:清除防火墻規(guī)則:[確定]
iptables:正在卸載模塊:[確定]

2. 軟件基礎(chǔ)安裝

安裝 Java

從官網(wǎng)下載最新版 Java 就可以,在/usr/local目錄下直接解壓

tar -zxvf jdk-7u79-linux-x64.tar.gz

修改環(huán)境變量vi /etc/profile,添加下列內(nèi)容,注意將home路徑替換成你的:

export WORK_SPACE=/usr/local
export JAVA_HOME=$WORK_SPACE/jdk1.7.0_79
export JRE_HOME=/usr/local/jdk1.7.0_79/jre
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

然后使環(huán)境變量生效,并驗(yàn)證 Java 是否安裝成功。這里注意,source命令最好僅使用一次,因?yàn)槎啻问褂脮?huì)將路徑復(fù)制多遍到Path下。

$ source /etc/profile   #生效環(huán)境變量
$ java -version         #如果打印出如下版本信息,則說(shuō)明安裝成功
java version "1.7.0_79"
Java(TM) SE Runtime Environment (build 1.7.0_79-b15)
Java HotSpot(TM) 64-Bit Server VM (build 24.79-b02, mixed mode)

安裝 Scala

Spark官方要求 Scala 版本為 2.10.x,注意不要下錯(cuò)版本,我下載了 2.10.4版本 同樣我們?cè)?usr/local目錄下直接解壓

tar -zxvf scala-2.10.4.tgz

再次修改環(huán)境變量vi /etc/profile,添加以下內(nèi)容:

export SCALA_HOME=$WORK_SPACE/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin

同樣的方法使環(huán)境變量生效,并驗(yàn)證 scala 是否安裝成功

$ source /etc/profile   #生效環(huán)境變量
$ scala -version        #如果打印出如下版本信息,則說(shuō)明安裝成功
Scala code runner version 2.10.4 -- Copyright 2002-2013, LAMP/EPFL

3. 安裝配置 Hadoop YARN

下載解壓

從官網(wǎng)下載 hadoop-2.7.3 版本 同樣我們?cè)?usr/local解壓

tar -zxvf hadoop-2.7.3.tar.gz

配置 Hadoop

cd /usr/local/hadoop-2.7.3/etc/hadoop進(jìn)入hadoop配置目錄,需要配置有以下7個(gè)文件:hadoop-env.shyarn-env.shslavescore-site.xmlhdfs-site.xmlmaprd-site.xmlyarn-site.xml

1.在hadoop-env.sh中配置JAVA_HOME

# The java implementation to use.
export JAVA_HOME=/usr/local/jdk1.7.0_79

2.在yarn-env.sh中配置JAVA_HOME

# some Java parameters
export JAVA_HOME=/usr/local/jdk1.7.0_79

3.在slaves中配置slave節(jié)點(diǎn)的ip或者h(yuǎn)ost

slave1

4.修改core-site.xml

<configuration>
 <property>
     <name>fs.defaultFS</name>
     <value>hdfs://master:9000/</value>
 </property>
 <property>
      <name>hadoop.tmp.dir</name>
      <value>file:/usr/local/hadoop-2.7.3/tmp</value>
 </property>
</configuration>

5.修改hdfs-site.xml

<configuration>
 <property>
     <name>dfs.namenode.secondary.http-address</name>
     <value>master:9001</value>
 </property>
 <property>
     <name>dfs.namenode.name.dir</name>
     <value>file:/usr/local/hadoop-2.7.3/dfs/name</value>
 </property>
 <property>
     <name>dfs.datanode.data.dir</name>
     <value>file:/usr/local/hadoop-2.7.3/dfs/data</value>
 </property>
 <property>
     <name>dfs.replication</name>
     <value>3</value>
 </property>
</configuration>

6.修改mapred-site.xml

<configuration>
 <property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
 </property>
</configuration>

7.修改yarn-site.xml

<configuration>
 <property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
 </property>
 <property>
     <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
     <value>org.apache.hadoop.mapred.ShuffleHandler</value>
 </property>
 <property>
     <name>yarn.resourcemanager.address</name>
     <value>master:8032</value>
 </property>
 <property>
     <name>yarn.resourcemanager.scheduler.address</name>
     <value>master:8030</value>
 </property>
 <property>
     <name>yarn.resourcemanager.resource-tracker.address</name>
     <value>master:8035</value>
 </property>
 <property>
     <name>yarn.resourcemanager.admin.address</name>
     <value>master:8033</value>
 </property>
 <property>
     <name>yarn.resourcemanager.webapp.address</name>
     <value>master:8088</value>
 </property>
</configuration>

8.將配置好的hadoop-2.7.3文件夾分發(fā)給所有slaves

scp -r /usr/local/hadoop-2.7.3 root@slave1:/usr/local/

啟動(dòng) Hadoop

在 master 上執(zhí)行以下操作,就可以啟動(dòng) hadoop 了。

cd /usr/local/hadoop-2.7.3/sbin    #進(jìn)入hadoop目錄
./bin/hadoop namenode -format     #格式化namenode
./start-dfs.sh               #啟動(dòng)dfs 
./start-yarn.sh              #啟動(dòng)yarn

驗(yàn)證 Hadoop 是否安裝成功

可以通過(guò)jps命令查看各個(gè)節(jié)點(diǎn)啟動(dòng)的進(jìn)程是否正常。在 master 上應(yīng)該有以下幾個(gè)進(jìn)程:

$ jps  #run on master
3407 SecondaryNameNode
3218 NameNode
3552 ResourceManager
3910 Jps

在每個(gè)slave上應(yīng)該有以下幾個(gè)進(jìn)程:

$ jps   #run on slaves
2072 NodeManager
2213 Jps
1962 DataNode

或者在瀏覽器中輸入 http://master:8088 ,應(yīng)該有 hadoop 的管理界面出來(lái)了,并能看到 slave1 節(jié)點(diǎn)(目前看不到,沒(méi)有找到原因).

4. Spark安裝

下載解壓

進(jìn)入官方下載地址下載最新版 Spark。我下載的是 spark-2.0.0-bin-hadoop2.7.tgz。 在/usr/local目錄下解壓

tar -zxvf spark-2.0.0-bin-hadoop2.7.tgz
mv spark-2.0.0-bin-hadoop2.7 spark-2.0.0    #原來(lái)的文件名太長(zhǎng)了,修改下

配置 Spark

cd /usr/local/spark-2.0.0/conf    #進(jìn)入spark配置目錄
cp spark-env.sh.template spark-env.sh   #從配置模板復(fù)制
vi spark-env.sh     #添加配置內(nèi)容

spark-env.sh末尾添加以下內(nèi)容(這是我的配置,你可以自行修改):

export SCALA_HOME=/usr/local/scala-2.10.4
export JAVA_HOME=/usr/local/jdk1.7.0_79
export HADOOP_HOME=/usr/local/hadoop-2.7.3
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_MASTER_IP=master
SPARK_LOCAL_DIRS=/usr/local/spark-2.0.0
SPARK_DRIVER_MEMORY=1G

注:在設(shè)置Worker進(jìn)程的CPU個(gè)數(shù)和內(nèi)存大小,要注意機(jī)器的實(shí)際硬件條件,如果配置的超過(guò)當(dāng)前Worker節(jié)點(diǎn)的硬件條件,Worker進(jìn)程會(huì)啟動(dòng)失敗。 vi slaves在slaves文件下填上slave主機(jī)名:

slave1

將配置好的spark-2.0.0文件夾分發(fā)給所有slaves

scp -r /usr/local/spark-2.0.0 root@slave1:/usr/local/

啟動(dòng)Spark

cd /usr/local/spark-2.0.0/sbin
./start-all.sh

驗(yàn)證 Spark 是否安裝成功

用jps檢查,在 master 上應(yīng)該有以下幾個(gè)進(jìn)程:

$ jps
7949 Jps
7328 SecondaryNameNode
7805 Master
7137 NameNode
7475 ResourceManager

在 slave 上應(yīng)該有以下幾個(gè)進(jìn)程:

$jps
3132 DataNode
3759 Worker
3858 Jps
3231 NodeManager

5. 運(yùn)行示例

搭建成功后,我們可以直接運(yùn)行spark自帶的例子,進(jìn)行驗(yàn)證

cd /usr/local/spark-2.0.0/bin
./run-example org.apache.spark.examples.SparkPi

運(yùn)行結(jié)果:

16/09/15 22:24:19 INFO scheduler.TaskSetManager: Finished task 1.0 in stage 0.0 (TID 1) in 149 ms on localhost (2/2)
16/09/15 22:24:19 INFO scheduler.TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool 
16/09/15 22:24:19 INFO scheduler.DAGScheduler: Job 0 finished: reduce at SparkPi.scala:38, took 2.156422 s
Pi is roughly 3.14159570797854
16/09/15 22:24:19 INFO server.ServerConnector: Stopped ServerConnector@24d95700{HTTP/1.1}{0.0.0.0:4040}
16/09/15 22:24:19 INFO handler.ContextHandler: Stopped o.s.j.s.ServletContextHandler@4925d132{/stages/stage/kill,null,UNAVAILABLE}
16/09/15 22:24:19 INFO handler.ContextHandler: Stopped o.s.j.s.ServletContextHandler@13dbe345{/api,null,UNAVAILABLE}

說(shuō)明已經(jīng)成功

7. spark shell使用示例

cd /usr/local/spark-2.0.0/bin
./spark-shell

隨后會(huì)出現(xiàn)如下界面

Welcome to
Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_79)
Type in expressions to have them evaluated.
Type :help for more information.

終端測(cè)試

var data = Array(1,2,3,4,5)
var distData = sc.parallelize(data)
var totalSum = distData.reduce((a,b)=>a+b)
println(totalSum)

計(jì)算結(jié)果為15 繼續(xù)計(jì)算

var mapRdd = distData.map(x=>x*2)
var totalSum = mapRdd.reduce((a,b)=>a+b)

計(jì)算結(jié)果:30

8.感激

感謝博客
Jark's Blog

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,182評(píng)論 6 543
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,489評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 178,290評(píng)論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 63,776評(píng)論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,510評(píng)論 6 412
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 55,866評(píng)論 1 328
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,860評(píng)論 3 447
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 43,036評(píng)論 0 290
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,585評(píng)論 1 336
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,331評(píng)論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,536評(píng)論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,058評(píng)論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,754評(píng)論 3 349
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 35,154評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 36,469評(píng)論 1 295
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,273評(píng)論 3 399
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,505評(píng)論 2 379

推薦閱讀更多精彩內(nèi)容