hadoop 版本
當前Hadoop版本比較混亂,讓很多用戶不知所措。
實際上,目前Hadoop有三個版本:Hadoop 1.0和Hadoop 2.0,在2017年,又發布了3.0,但是3.0 還遠沒有被大眾用戶接受,所以我們常用的是2.X
hadoop官網版本
其中,Hadoop 1.0由一個分布式文件系統HDFS和一個離線計算框架MapReduce組成,而Hadoop 2.0則包含一個支持NameNode橫向擴展的HDFS,一個資源管理系統YARN和一個運行在YARN上的離線計算框架MapReducev2。相比于Hadoop 1.0,Hadoop 2.0功能更加強大,且具有更好的擴展性、性能,并支持多種計算框架。
hadoop 發展史
常用發行版:
- Apache Hadoop 原生版
- CDH(Cloudera)
- HDP(Hortonworks)
HADOOP的發行版除了社區的 Apache hadoop 外, Cloudera , Hortonworks ,MapR , EMC , IBM , Intel , 華為 等都提供了自己的商業版本。商業版主要是提供了 專業的技術支持 ,這對一些大型企業尤其重要。每個發行版都有自己的一些特點,本文就各個發行版做簡單介紹。
2008 年成立的 Cloudera 是最早將 Hadoop 商用的公司,為合作伙伴提供 Hadoop的商用解決方案,主要是包括 支持 , 咨詢服務 , 培訓 。 2009 年 Hadoop 的創始人DougCutting 也加盟 Cloudera 公司。 Cloudera 產品主要為 CDH , Cloudera Manager , Cloudera Support 。 CDH 是 Cloudera 的 Hadoop 發行版,完全開源,比 Apache Hadoop 在兼容性,安全性,穩定性上有所增強。 Cloudera Manager 是集群的軟件分發及管理監控平臺,可以在幾個小時內部署好一個 Hadoop 集群,并對集群的節點及服務進行實時監控。 Cloudera Support 即是對 Hadoop 的技術支持。 Cloudera 的標價為 每年每個節點 4000 美元 。
cloudera 使用 cloudera manager 圖形界面監控這個hadoop集群,易配置,出現問題,在圖形界面上會有明顯提示,而且大部分配置項都可以在圖形界面進行修改,適用于沒有專業hadoop研發人員的公司。CDH 劣勢:版本更新較慢,雖然在很大程度上解決了HADOOP組件的版本問題,但是整體組建版本稍舊
2011 年成立的 Hortonworks 是雅虎與硅谷風投公司 Benchmark Capital 合資組建的公司。公司成立之初就吸納了大約 25 名至 30 名專門研究 Hadoop 的雅虎工程師,上述工程師均在 2005 年開始協助雅虎開發 Hadoop ,這些工程師貢獻了 Hadoop 80%的代碼。雅虎工程副總裁、雅虎 Hadoop 開發團隊負責人 Eric Baldeschwieler 出任 Hortonworks 的首席執行官。 Hortonworks 的主打產品是 Hortonworks Data Platform (HDP) ,也同樣是 100% 開源的產品, HDP 除了常見的項目外還包含了 Ambari ,一款開源的安裝和管理系統。 HCatalog ,一個元數據管理系統, HCatalog 現已集成到 Facebook 開源的 Hive 中。
傳統的 硬件廠商 , Intel , 華為 也提供了 Hadoop 發行版。
HDP版本是比較新的版本,目前與apache基本同步,因為Hortonworks內部大部分員工都是apache代碼貢獻者,尤其是Hadoop 2.0的貢獻者
優缺點說明:
原生版
我們常說的原生版,也叫做apache hadoop
優點:
? 完全開源免費。
? 社區活躍
? 文檔、資料詳實
缺點:
?復雜的版本管理。版本管理比較混亂的,各種版本層出不窮,讓很多使用者不知所措。
?復雜的集群部署、安裝、配置。通常按照集群需要編寫大量的配置文件,分發到每一臺節點上,容易出錯,效率低下。
?復雜的集群運維。對集群的監控,運維,需要安裝第三方的其他軟件,如ganglia,nagois等,運維難度較大。
?復雜的生態環境。在Hadoop生態圈中,組件的選擇、使用,比如Hive,Mahout,Sqoop,Flume,Spark,Oozie等等,需要大量考慮兼容性的問題,版本是否兼容,組件是否有沖突,編譯是否能通過等。經常會浪費大量的時間去編譯組件,解決版本沖突問題。
CDH版
優點:
?基于Apache協議,100%開源。版本管理清晰。比如Cloudera,CDH1,CDH2,CDH3,CDH4等
?比Apache Hadoop在兼容性、安全性、穩定性上有增強。第三方發行版通常都經過了大量的測試驗證,有眾多部署實例,大量的運行到各種生產環境。
?版本更新快。通常情況,比如CDH每個季度會有一個update,每一年會有一個release。
?基于穩定版本Apache Hadoop,并應用了最新Bug修復或Feature的patch
?提供了部署、安裝、配置工具,大大提高了集群部署的效率,可以在幾個小時內部署好集群。
?運維簡單。提供了管理、監控、診斷、配置修改的工具,管理配置方便,定位問題快速、準確,使運維工作簡單,有效。