Hadoop - Azkaban 作業調度 - 哥不是小蘿莉 - 博客園
http://www.cnblogs.com/smartloli/p/5191155.html
在調度 Hadoop 的相關作業時,有以下幾種方式:
基于 Linux 系統級別的 Crontab。
Java 應用級別的 Quartz。
第三方的調度系統。
自行開發 Hadoop 應用調度系統。
對于前兩種,使用 Crontab 和 Quartz 是基本可以滿足業務需求,但有其弊端。在 Job 數量龐大的情況下,Crontab 腳本的編寫,變得異常復雜。其調度的過程也不能透明化,讓管理變得困難。Quartz 雖然不用編寫腳本,實現對應的調度 API 即可,然其調度過程不透明,不涵蓋 Job 運行詳情。需自行開發其功能。
因而,第三方的調度系統便應運而生了。在《Hadoop - 任務調度系統比較》一文中,介紹第三方調度系統之間的差異。
Hadoop - 任務調度系統比較 - 哥不是小蘿莉 - 博客園
http://www.cnblogs.com/smartloli/p/4964741.html
1.概述
在Hadoop應用,隨著業務指標的迭代,而使其日趨復雜化的時候,管理Hadoop的相關應用會變成一件頭疼的事情,如:作業的依賴調度,任務的運行情況的監控,異常問題的排查等,這些問題會是的我們日常的工作變得復雜。那么,在沒有條件和精力去開發一套調度系統的情況下,我們去選擇一款第三方開源的調度系統,來盡量減輕和降低我們日常工作的復雜度,也是極好的。
2.1 Oozie
Oozie目前是托管在Apache基金會的,開源。
2.2 Zeus
它是一個Hadoop的作業平臺,從Hadoop任務的調試運行到生產任務的周期調度,它支持任務的整個生命周期。
2.3 Azkaban
這是由LinkedIn創建的一個批處理工作流,用于跑Hadoop的Jobs。Azkaban提供了一個易于使用的用戶界面來維護和跟蹤你的工作流程。
工作流調度器Azkaban學習,工作流調度azkaban_云計算 | 幫客之家
http://www.bkjia.com/yjs/946863.html
1、Azkaban是什么
我們在工作中應該都遇到過這樣的場景:有一個任務,這個任務可以劃分成多個較小的任務完成,之所以進行劃分是因為小任務之間可以并發的進行,例如是一個shell腳本執行的命令吧,大任務A可以劃分成B、C、D、E四個子任務(腳本)完成,而B和C是可以同時進行的,D依賴B和C的輸出,E又依賴D的輸出,于是我們一般的做法可能就是開兩個終端同時執行B和C,等兩個都執行完成之后再執行D,接著在執行E。整個執行的過程都需要我們參與,但是整個的執行過程類似一個有向無環圖,每一個子任務的執行可以看作整個任務的一個流,我們可以同時從沒有入度的節點開始執行,任何沒有流向(兩個節點之間沒有通路)關系節點都可以并行得執行,人為的控制難免就有點力不從心了(因為很多任務都需要在深夜執行,一般我們都是寫腳本并設置cron),這時候我們需要的就是一個工作流調度器。 Azkaban就是完成這種任務的(其實主要還是用于對hadoop生態圈的任務的支持),它是由Linkedin實現并開源的,主要用于在一個工作流內以一個特定的順序運行一組工作和流程,它的配置是通過簡單的key:value對的方式,通過配置中的dependencies來設置依賴關系,這個依賴關系必須是無環的,否則會被視為無效的工作流。
hadoop 集群調度 Azkaban2搭建 - bbaiggey_bigdata的博客 - 博客頻道 - CSDN.NET
http://blog.csdn.net/bbaiggey/article/details/50775568
Azkaban是由Linkedin開源的一個批量工作流任務調度器。用于在一個工作流內以一個特定的順序運行一組工作和流程。Azkaban定義了一種KV文件格式來建立任務之間的依賴關系,并提供一個易于使用的web用戶界面維護和跟蹤你的工作流。
它有如下功能特點:
Web用戶界面
方便上傳工作流
方便設置任務之間的關系
調度工作流
認證/授權(權限的工作)
能夠殺死并重新啟動工作流
模塊化和可插拔的插件機制
hadoop工作流引擎之azkaban [轉] - 風浪 - 博客園
http://www.cnblogs.com/whtydn/p/4353695.html
介紹
Azkaban是twitter出的一個任務調度系統,【操作比Oozie要簡單】很多而且非常直觀,提供的功能比較簡單。Azkaban以Flow為執行單元進行定時調度,Flow就是預定義好的由一個或多個可存在依賴關系的Job組成的工作流。Azkaban的官方主頁是http://azkaban.github.io/azkaban2/ ,它的的主要特點有下面幾個:
兼容所有Hadoop版本(1.x,2.x,CDH)
可以通過WebUI進行管理配置,操作方便
可以通過UI配置定時調度
擴展性好,可針對某一問題開發組件(目前有三個插件HDFSBrowser,JobtypePlugins和HadoopSecurityManager)
有權限管理模塊
可以通過WebUI跟蹤Flow或者Job的執行情況
可以設置郵件提醒
可以為定時Flow或者Flow中的某個Job配置執行時間長度的控制,如果執行時間超過了所設的時間,可以發送警告郵件給相關人員或者Kill掉相應設置的Flow或Job
可以重試失敗Job
針對 Hadoop 的 Oozie 工作流管理引擎的實際應用
http://www.ibm.com/developerworks/cn/data/library/bd-hadoopoozie/
Apache Oozie 是 Apache Hadoop 生態系統中的一個關鍵組件,它使得開發人員能夠調度電子郵件通知方面的重復作業,或者調度使用 Java?、UNIX Shell、Apache Hive、Apache Pig 和 Apache Sqoop 等各種編程語言編寫的重復作業。