現在想學習大數據肯定學習Hadoop,每個新手在學習Hadoop的時候都需要去安裝一個屬于自己的測試環境才能開始愉快的玩耍。但是Hadoop的發行版本非常多,我們常用的主要有三個版本。
Cloudera版本(CDH)
Apache開源版本
Hortonworks版本(HDP)
上面的順序也是在國內的使用率排序了。其中CDH版本由于對Hadoop版本劃分非常清晰,相關文檔比較規范因此很多人都在使用。
而Apache的開源版本版本繁多,各個版本與其他版本之間的兼容性問題較大,而且需要編寫大量的配置文件,并需要將其分發到各個節點,新手很容易出錯,打擊自己的積極性,而且效率比較低下。
我們之前寫的安裝教程都是Apache版本Hadoop安裝教程。如果是搭建自己的測試環境那么這種繁瑣程度還可以接受,但是如果是需要管理數十臺或者成百上千臺的機器的時候這就是一個非常巨大的工作量了。而且運維過程當中可能會有各種奇怪的問題,導致我們會浪費很多時間,那么萬能的程序員會被此打敗嗎?No?。?!
Ambari 和 Cloudera Manager這兩個系統就是為了簡化Hadoop生態集群的安裝,配置而生的。同時還可以去提高Hadoop的運維效率,以及對Hadoop集群進行監控。
Cloudera Manager是cloudera公司的一個產品,著重于幫助大家管理自己的CDH集群,并且我們可以通過其web界面快速的自動配置和部署CDH和其他相關組件,還有統一日志管理功能,統一集群配置管理功能和實時更改配置功能等。 官網地址
而Ambari則是Apache基金會的頂級項目,它同樣集安裝,配置,管理和監控等功能于一體,提供了可視化的操作。并且支持查看MapReduce,Hive等應用程序的能力,可以對其性能特性進行診斷。 官網地址
主要的不同點 | apache Ambari | ClouderaManager Express(免費版) |
---|---|---|
配置版本控制和歷史記錄 | 支持 | 不支持 |
二次開發 | 支持 | 不支持 |
集成 | 支持 | no (不支持redis、kylin、es) |
維護 | 依靠社區力量 | cloudera做了一些定制開發,自行維護或打patch會離社區越來越遠 |
權限控制 | ranger(相對簡單) | sentry(復雜) |
視圖定制 | 支持創建自己的視圖,添加自定義服務 | 不支持 |
如果我們使用的是CDH或者HDP版本的Hadoop那么我們有現成的工具管理整個集群,但是我們不難發現,兩者沒有對Apache的Hadoop版本進行處理,我們前面將到的 包括我們現在使用的都是基于Apache版本的Hadoop,那么集群的安裝和配置都是一個繁瑣的操作,我自己搞了一個安裝腳本,但是還很粗糙,很多東西都沒有抽象。后續規劃搞成一個服務。