學(xué)習(xí)spark,記錄下來(lái)搭建環(huán)境及軟件版本,供大家使用
軟件環(huán)境
Centos6.5
jdk1.7.0_79
hadoop-2.7.3
scala-2.10.4
spark-2.0.0-bin-hadoop2.7
0. 序
所有l(wèi)inux系統(tǒng)均在root用戶下使用,目的是為了省去權(quán)限麻煩,所以一律采用root用戶
1. 環(huán)境準(zhǔn)備
修改主機(jī)名
我們將搭建1個(gè)master,1個(gè)slave的方案。首先修改主機(jī)名vi /etc/hostname,在master上修改為master,其中一個(gè)slave上修改為slave1。
配置hosts
在每臺(tái)主機(jī)上修改host文件
vi /etc/hosts
10.1.1.107 master
10.1.1.108 slave1
配置之后ping一下用戶名看是否生效
ping slave1
SSH 免密碼登錄
默認(rèn)情況下,Centos6.5已經(jīng)自帶了Openssh server。如果沒(méi)有的話,可以使用以下命令安裝
apt-get install openssh-server
在所有機(jī)器上都生成私鑰和公鑰
ssh-keygen -t rsa # 一路回車
需要讓機(jī)器間都能相互訪問(wèn),就把每個(gè)機(jī)子上的id_rsa.pub發(fā)給master節(jié)點(diǎn),傳輸公鑰可以用scp來(lái)傳輸。
scp ~/.ssh/id_rsa.pub root@master:~/.ssh/id_rsa.pub.slave1
在master上,將所有公鑰加到用于認(rèn)證的公鑰文件authorized_keys中
cat ~/.ssh/id_rsa.pub* >> ~/.ssh/authorized_keys
將公鑰文件authorized_keys分發(fā)給每臺(tái)slave
scp ~/.ssh/authorized_keys root@slave1:~/.ssh/
在每臺(tái)機(jī)子上驗(yàn)證SSH無(wú)密碼通信
ssh master
ssh slave1
登陸后,如果想退出,則可以使用'
exit
關(guān)閉防火墻
由于多個(gè)端口的訪問(wèn),所以最好在所有機(jī)器上關(guān)閉防火墻,生產(chǎn)環(huán)境則需要將端口號(hào)放入防火墻中
service iptables stop
結(jié)果如下
iptables:將鏈設(shè)置為政策 ACCEPT:filter [確定]
iptables:清除防火墻規(guī)則:[確定]
iptables:正在卸載模塊:[確定]
2. 軟件基礎(chǔ)安裝
安裝 Java
從官網(wǎng)下載最新版 Java 就可以,在/usr/local目錄下直接解壓
tar -zxvf jdk-7u79-linux-x64.tar.gz
修改環(huán)境變量vi /etc/profile,添加下列內(nèi)容,注意將home路徑替換成你的:
export WORK_SPACE=/usr/local
export JAVA_HOME=$WORK_SPACE/jdk1.7.0_79
export JRE_HOME=/usr/local/jdk1.7.0_79/jre
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
然后使環(huán)境變量生效,并驗(yàn)證 Java 是否安裝成功。這里注意,source命令最好僅使用一次,因?yàn)槎啻问褂脮?huì)將路徑復(fù)制多遍到Path下。
$ source /etc/profile #生效環(huán)境變量
$ java -version #如果打印出如下版本信息,則說(shuō)明安裝成功
java version "1.7.0_79"
Java(TM) SE Runtime Environment (build 1.7.0_79-b15)
Java HotSpot(TM) 64-Bit Server VM (build 24.79-b02, mixed mode)
安裝 Scala
Spark官方要求 Scala 版本為 2.10.x,注意不要下錯(cuò)版本,我下載了 2.10.4版本 同樣我們?cè)?usr/local目錄下直接解壓
tar -zxvf scala-2.10.4.tgz
再次修改環(huán)境變量vi /etc/profile,添加以下內(nèi)容:
export SCALA_HOME=$WORK_SPACE/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin
同樣的方法使環(huán)境變量生效,并驗(yàn)證 scala 是否安裝成功
$ source /etc/profile #生效環(huán)境變量
$ scala -version #如果打印出如下版本信息,則說(shuō)明安裝成功
Scala code runner version 2.10.4 -- Copyright 2002-2013, LAMP/EPFL
3. 安裝配置 Hadoop YARN
下載解壓
從官網(wǎng)下載 hadoop-2.7.3 版本 同樣我們?cè)?usr/local解壓
tar -zxvf hadoop-2.7.3.tar.gz
配置 Hadoop
cd /usr/local/hadoop-2.7.3/etc/hadoop進(jìn)入hadoop配置目錄,需要配置有以下7個(gè)文件:hadoop-env.sh,yarn-env.sh,slaves,core-site.xml,hdfs-site.xml,maprd-site.xml,yarn-site.xml。
1.在hadoop-env.sh中配置JAVA_HOME
# The java implementation to use.
export JAVA_HOME=/usr/local/jdk1.7.0_79
2.在yarn-env.sh中配置JAVA_HOME
# some Java parameters
export JAVA_HOME=/usr/local/jdk1.7.0_79
3.在slaves中配置slave節(jié)點(diǎn)的ip或者h(yuǎn)ost
slave1
4.修改core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000/</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop-2.7.3/tmp</value>
</property>
</configuration>
5.修改hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop-2.7.3/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop-2.7.3/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
6.修改mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
7.修改yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8035</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property>
</configuration>
8.將配置好的hadoop-2.7.3文件夾分發(fā)給所有slaves
scp -r /usr/local/hadoop-2.7.3 root@slave1:/usr/local/
啟動(dòng) Hadoop
在 master 上執(zhí)行以下操作,就可以啟動(dòng) hadoop 了。
cd /usr/local/hadoop-2.7.3/sbin #進(jìn)入hadoop目錄
./bin/hadoop namenode -format #格式化namenode
./start-dfs.sh #啟動(dòng)dfs
./start-yarn.sh #啟動(dòng)yarn
驗(yàn)證 Hadoop 是否安裝成功
可以通過(guò)jps命令查看各個(gè)節(jié)點(diǎn)啟動(dòng)的進(jìn)程是否正常。在 master 上應(yīng)該有以下幾個(gè)進(jìn)程:
$ jps #run on master
3407 SecondaryNameNode
3218 NameNode
3552 ResourceManager
3910 Jps
在每個(gè)slave上應(yīng)該有以下幾個(gè)進(jìn)程:
$ jps #run on slaves
2072 NodeManager
2213 Jps
1962 DataNode
或者在瀏覽器中輸入 http://master:8088 ,應(yīng)該有 hadoop 的管理界面出來(lái)了,并能看到 slave1 節(jié)點(diǎn)(目前看不到,沒(méi)有找到原因).
4. Spark安裝
下載解壓
進(jìn)入官方下載地址下載最新版 Spark。我下載的是 spark-2.0.0-bin-hadoop2.7.tgz。 在/usr/local目錄下解壓
tar -zxvf spark-2.0.0-bin-hadoop2.7.tgz
mv spark-2.0.0-bin-hadoop2.7 spark-2.0.0 #原來(lái)的文件名太長(zhǎng)了,修改下
配置 Spark
cd /usr/local/spark-2.0.0/conf #進(jìn)入spark配置目錄
cp spark-env.sh.template spark-env.sh #從配置模板復(fù)制
vi spark-env.sh #添加配置內(nèi)容
在spark-env.sh末尾添加以下內(nèi)容(這是我的配置,你可以自行修改):
export SCALA_HOME=/usr/local/scala-2.10.4
export JAVA_HOME=/usr/local/jdk1.7.0_79
export HADOOP_HOME=/usr/local/hadoop-2.7.3
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_MASTER_IP=master
SPARK_LOCAL_DIRS=/usr/local/spark-2.0.0
SPARK_DRIVER_MEMORY=1G
注:在設(shè)置Worker進(jìn)程的CPU個(gè)數(shù)和內(nèi)存大小,要注意機(jī)器的實(shí)際硬件條件,如果配置的超過(guò)當(dāng)前Worker節(jié)點(diǎn)的硬件條件,Worker進(jìn)程會(huì)啟動(dòng)失敗。 vi slaves在slaves文件下填上slave主機(jī)名:
slave1
將配置好的spark-2.0.0文件夾分發(fā)給所有slaves
scp -r /usr/local/spark-2.0.0 root@slave1:/usr/local/
啟動(dòng)Spark
cd /usr/local/spark-2.0.0/sbin
./start-all.sh
驗(yàn)證 Spark 是否安裝成功
用jps檢查,在 master 上應(yīng)該有以下幾個(gè)進(jìn)程:
$ jps
7949 Jps
7328 SecondaryNameNode
7805 Master
7137 NameNode
7475 ResourceManager
在 slave 上應(yīng)該有以下幾個(gè)進(jìn)程:
$jps
3132 DataNode
3759 Worker
3858 Jps
3231 NodeManager
5. 運(yùn)行示例
搭建成功后,我們可以直接運(yùn)行spark自帶的例子,進(jìn)行驗(yàn)證
cd /usr/local/spark-2.0.0/bin
./run-example org.apache.spark.examples.SparkPi
運(yùn)行結(jié)果:
16/09/15 22:24:19 INFO scheduler.TaskSetManager: Finished task 1.0 in stage 0.0 (TID 1) in 149 ms on localhost (2/2)
16/09/15 22:24:19 INFO scheduler.TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool
16/09/15 22:24:19 INFO scheduler.DAGScheduler: Job 0 finished: reduce at SparkPi.scala:38, took 2.156422 s
Pi is roughly 3.14159570797854
16/09/15 22:24:19 INFO server.ServerConnector: Stopped ServerConnector@24d95700{HTTP/1.1}{0.0.0.0:4040}
16/09/15 22:24:19 INFO handler.ContextHandler: Stopped o.s.j.s.ServletContextHandler@4925d132{/stages/stage/kill,null,UNAVAILABLE}
16/09/15 22:24:19 INFO handler.ContextHandler: Stopped o.s.j.s.ServletContextHandler@13dbe345{/api,null,UNAVAILABLE}
說(shuō)明已經(jīng)成功
7. spark shell使用示例
cd /usr/local/spark-2.0.0/bin
./spark-shell
隨后會(huì)出現(xiàn)如下界面
Welcome to
Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_79)
Type in expressions to have them evaluated.
Type :help for more information.
終端測(cè)試
var data = Array(1,2,3,4,5)
var distData = sc.parallelize(data)
var totalSum = distData.reduce((a,b)=>a+b)
println(totalSum)
計(jì)算結(jié)果為15 繼續(xù)計(jì)算
var mapRdd = distData.map(x=>x*2)
var totalSum = mapRdd.reduce((a,b)=>a+b)
計(jì)算結(jié)果:30
8.感激
感謝博客
Jark's Blog