二、Azkaban單機與集群的安裝

一、概述

在上一篇文章中,描述了如果使用源碼對Azkaban進行編譯并打包的過程,如果用戶不想自己手動編譯,可以直接下載筆者已經編譯好的安裝包,下載地址如下:

百度云鏈接:http://pan.baidu.com/s/1hs64HjI 密碼:awv0

百度云安裝包

其中:
(1)azkaban.sql:Azkaban所需要的mysql表結構
(2)azkaban-solo-server-3.10.0.tar.gz:單機版azkaban安裝包
(3)azkaban-web-server-3.10.0.tar.gz:集群版azkaban中的web服務端
(4)azkaban-exec-server-3.10.0.tar.gz:集群版azkaban中的執行服務端
(5)azkaban-jobtype-3.0.0.tar.gz:azkaban-plugin安裝包
(6)azkaban-jobtype-3.0.0.jar:azkaban-plugin的jar依賴包

1、準備第三方運行框架的客戶端

由于azkaban是運行mr、hive、spark等這些框架的,所以理所當然的需要在azkaban安裝所在的機器把這些工程都準備好,并且能在部署azkaban的機器上正常運行,把環境變量配置好等。因為從功能上看,azkaban是這些框架的客戶端而已。筆者所使用的四個組件版本信息如下:

(1) Hadoop: hadoop-2.6.0-cdh5.5.0.tar.gz
(2) Hive: hive-1.1.0-cdh5.5.5.tar.gz
(3) Spark: spark-2.0.2-bin-hadoop2.6.tar.gz
(4) Pig: pig-0.12.0-cdh5.5.0.tar.gz

把以上三個包解壓到指定目錄下,如 /home/hadoop/azkaban
修改各種配置文件,最終目標是能在配置的集群上能正常執行任務

2、準備mysql和對應的表結構

下圖是官網給出的Azkaban結構圖。從圖中看出,Azkaban是使用mysql作為相關數據的存儲的。


Azkaban的結構圖

MySQL安裝過程(略)

(1)進入MySQL命令行后,創建數據庫:

CREATE DATABASE azkaban;

(2)創建用戶名和密碼:

CREATE USER 'username'@'%' IDENTIFIED BY 'password';

(3)給用戶授權:

GRANT SELECT,INSERT,UPDATE,DELETE ON <database>.* to '<username>'@'%' WITH GRANT OPTION;

(4)導入SQL腳本 azkaban.sql

SOURCE azkaban.sql;

(5)檢查下載包web和executor的lib文件下是否有mysql驅動,若不存在,則拷貝一個。

三、單機版安裝

1、把azkaban-solo-server-3.10.0.tar.gz文件拷貝到指定目錄,如/home/hadoop/azkaban,然后解壓,解壓后的目錄內容如下。

azkaban-solo

2、進入plugins目錄,把里面的jobtypes目錄刪掉,拷貝azkaban-jobtype-3.0.0.tar.gz文件到該目錄下,解壓后重命名為jobtypes

3、進入jobtypes目錄,把azkaban-jobtype-3.0.0.jar文件拷貝到該目錄下

至此,jobtypes目錄的內容如下:

jobtypes目錄內容

4、進入hive目錄,編輯plugin.properties和private.properties文件,把hive.aux.jars.path屬性的值修改為:

/usr/local/hive/lib

5、編輯common.properties文件,配置各個組件的環境變量

hadoop.home=/home/hadoop/hadoop
hive.home=/home/hadoop/hive
pig.home=/home/hadoop/pig
spark.home=/home/hadoop/spark
azkaban.home=/home/hadoop/azkaban/azkaban-solo-server-3.10.0
注意:路徑要根據自己的配置進行修改

6、配置commonprivate.properties文件,配置如下:

#config jobtype classpath
jobtype.global.classpath=/usr/local/hadoop/etc/hadoop:/usr/local/hadoop/share/hadoop/common/*:/usr/local/hadoop/share/hadoop/common/lib/*:/usr/local/hadoop/share/hadoop/hdfs/*:/usr/local/hadoop/share/hadoop/hdfs/lib/*:/usr/local/hadoop/share/hadoop/yarn/*:/usr/local/hadoop/share/hadoop/yarn/lib/*:/usr/local/hadoop/share/hadoop/mapreduce/*:/usr/local/hadoop/share/hadoop/mapreduce/lib/*

#config hadoop classpath
hadoop.classpath=/usr/local/hadoop/etc/hadoop:/usr/local/hadoop/share/hadoop/common/*:/usr/local/hadoop/share/hadoop/common/lib/*:/usr/local/hadoop/share/hadoop/hdfs/*:/usr/local/hadoop/share/hadoop/hdfs/lib/*:/usr/local/hadoop/share/hadoop/yarn/*:/usr/local/hadoop/share/hadoop/yarn/lib/*:/usr/local/hadoop/share/hadoop/mapreduce/*:/usr/local/hadoop/share/hadoop/mapreduce/lib/*

# hadoop
hadoop.home=/home/hadoop/hadoop
hive.home=/home/hadoop/hive
pig.home=/home/hadoop/pig
spark.home=/home/hadoop/spark
azkaban.home=/home/hadoop/azkaban/azkaban-solo-server-3.10.0

#set execute use false
execute.as.user=false

其中jobtype.global.classpath和hadoop.classpath兩個配置項中, /usr/local/hadoop 這個路徑要改為自己環境下的路徑

注意,/usr/local/hadoop/etc/hadoop后面不能加 /*

7、配置conf/azkaban.properties

default.timezone.id=Asia/Shanghai
#注釋內置數據庫h2的配置,改為mysql
#database.type=h2
#h2.path=./h2
#h2.create.tables=true
database.type=mysql
mysql.port=3306
mysql.host=10.1.2.xxx
mysql.database=azkaban
mysql.user=user
mysql.password=pass
mysql.numconnections=100
azkaban.webserver.url=http://10.1.2.xxx:8081

8、拷貝commons-configuration-1.6.jar和hadoop-common-2.6.0-cdh5.5.0.jar兩個jar包到lib目錄下

9、配置jdk版本為jdk8。編輯bin/azkaban-solo-start.sh,在第二行下加入以下配置

export PATH=/usr/local/jdk1.8.0_101/bin:$PATH

10、啟動和關閉
進入azkaban-solo-server-3.10.0目錄

啟動: ./bin/azkaban-solo-start.sh
關閉:./bin/azkaban-solo-shutdown.sh

11、打開界面: http://ip:8081

azkaban界面

用戶名和密碼默認都是 azkaban。至此,單機版azkaban安裝完成。

四、集群版安裝

機器及組件部署情況:

主機域名 主機IP 安裝組件
decluster1 10.1.2.1 azkaban-web
decluster2 10.1.2.2 azkaban-exec 和 azkaban-plugin
decluster3 10.1.2.3 mysql

1、在decluster3上安裝mysql,并導入azkaban.sql文件,過程跟單機版一樣,不再詳述。

2、在decluster2上準備hadoop、hive、spark、pig四個組件的客戶端,也跟單機版的一致。

3、把 azkaban-exec-server-3.10.0.tar.gz 拷貝到decluster2上,解壓到指定目錄,如 /home/hadoop/azkaban目錄下,然后再在該目錄下創建名稱為"plugins"的文件夾。這時候azkaban-exec只存在三個目錄:

-- azkaban-exec-server-3.10.0   
   -- bin   
   -- conf
   -- plugins

4、把 azkaban-jobtype-3.0.0.tar.gz 拷貝到 plugins 目錄下,解壓后重命名為:jobtypes,并把 azkaban-jobtype-3.0.0.jar 文件拷貝到 jobtypes目錄下,完成后的效果如下:

集群版plugins目錄情況

5、配置 common.properties 和 commonprivate.properties 文件,過程和單機版的一樣。

6、修改 conf/azkaban.properties 文件

# Azkaban Personalization Settings
azkaban.name=Dataeye
azkaban.label=Powered by DEDP 
azkaban.color=#FF3601
web.resource.dir=web/
default.timezone.id=Asia/Shanghai

# Azkaban JobTypes Plugins
azkaban.jobtype.plugin.dir=plugins/jobtypes

# Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager
user.manager.xml.file=conf/azkaban-users.xml

# Loader for projects
executor.global.properties=conf/global.properties
azkaban.project.dir=projects

database.check.version=false
database.type=mysql
mysql.port=3306
mysql.host=10.1.2.3
mysql.database=azkaban
mysql.user=azkaban
mysql.password=azkaban
mysql.numconnections=100

# Velocity dev mode
velocity.dev.mode=false

# Azkaban Jetty server properties. Ignored in tomcat
jetty.use.ssl=false
jetty.ssl.port=8043
jetty.maxThreads=25
jetty.port=8081

# Azkaban Executor settings
executor.maxThreads=50
executor.port=12321
executor.flow.threads=30
azkaban.use.multiple.executors=true

# mail settings
mail.sender=emailname@163.com
mail.host=smtp.163.com
mail.user=username
mail.password=password
job.failure.email=
job.success.email=

lockdown.create.projects=false

azkaban.webserver.url=http://deazkaban.dataeye.com/

# JMX stats
jetty.connector.stats=true
executor.connector.stats=true

7、修改 bin/azkaban-executor-start.sh 文件,在第二行添加以下配置

export PATH=/home/hadoop2/azkaban/jdk1.8.0_101/bin:$PATH

8、把 azkaban-web-server-3.10.0.tar.gz 拷貝并解壓到 decluster1的指定目錄下,如 /home/hadoop/azkaban 目錄

9、修改 bin/azkaban-web-start.sh 文件,在第二行添加以下配置

export PATH=/home/hadoop2/azkaban/jdk1.8.0_101/bin:$PATH

9、修改 conf/azkaban.properties 文件,各項配置跟exec的配置相同,只有一個地方有差異:

# Azkaban Executor settings
executor.port=12321
executor.host=decluster2
azkaban.use.multiple.executors=true

以上指定web跟exec通信的端口是 12321

以上步驟都完成后,分別在decluster1 和decluster2上啟動azkaban的web組件和exec組件,如下:

在decluster1上執行: ./bin/azkaban-web-start.sh
在decluster2上執行: ./bin/azkaban-exec-start.sh

10、最后一步,也是最關鍵的一步:
打開mysql中的executors表,可以看到以下信息:

exectors表信息

把active中的0,修改為1,如下:

exectors表信息

至此,azkaban集群版安裝完成,打開 http://10.1.2.1:8081 訪問azkaban的web界面

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容