Python海量數據處理之_Hadoop家族

?本篇是hadoop部分的最后一篇,主要介紹Hadoop家族的常用工具。以及解答學習過程中的一些疑問。

hadoop家族

?Pig是上層封裝了的數據流處理工具。
?Mahout是基于集群的數據挖掘工具。
?Zookeeper是集群管理工具,比如配置一些備用服務器,當重要的服務宕機時,及時補救。
?其中黃色部分是hadoop安裝包中自帶的,HDFS是文件系統支持,MapReduce是計算支持。
?綠色部分都是向上層提供類似數據庫的數據訪問,但方式不同。Hive是基于MapReduce的封裝,它向上層提供了類似SQL語言的HQL,向下通過MapReduce方式訪問數據。HBase在對HDFS層的封裝,它本質上是一種key/value系統,主要負責數據存儲,解決的是HDFS隨機存儲方面的問題。

有了mysql為什么還要Hadoop?

?我們之前介紹搭建比特幣礦池的時候,使用zookeeper+kafka+mysql建立集群,其中用mysql建構數據服務器,集群中其它機器通過ip和端口訪問其數據,配置方便,速度也不錯。既然集群中可以使用mysql存儲數據,那為什么還非要用hadoop系列存儲工具呢?
?mysql存放的是數據庫,而hadoop系列存放的是數據倉庫,一方面HDFS針對的是更大規模的數據,另一方面mysql的數據類型只限于數據庫,而HDFS比較靈活,可以存儲各種類型的數據。

具體安裝

?集群中的計算機軟硬件可能有所差異,為了保證一致性,最好使用下載軟件包的方式安裝,而不用apt-get系列工具。一般的安裝過程主要包括:下載,解包,設置環境變量,修改配置文件,啟動等幾個部分。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容