?本篇是hadoop部分的最后一篇,主要介紹Hadoop家族的常用工具。以及解答學習過程中的一些疑問。
hadoop家族
?Pig是上層封裝了的數據流處理工具。
?Mahout是基于集群的數據挖掘工具。
?Zookeeper是集群管理工具,比如配置一些備用服務器,當重要的服務宕機時,及時補救。
?其中黃色部分是hadoop安裝包中自帶的,HDFS是文件系統支持,MapReduce是計算支持。
?綠色部分都是向上層提供類似數據庫的數據訪問,但方式不同。Hive是基于MapReduce的封裝,它向上層提供了類似SQL語言的HQL,向下通過MapReduce方式訪問數據。HBase在對HDFS層的封裝,它本質上是一種key/value系統,主要負責數據存儲,解決的是HDFS隨機存儲方面的問題。
有了mysql為什么還要Hadoop?
?我們之前介紹搭建比特幣礦池的時候,使用zookeeper+kafka+mysql建立集群,其中用mysql建構數據服務器,集群中其它機器通過ip和端口訪問其數據,配置方便,速度也不錯。既然集群中可以使用mysql存儲數據,那為什么還非要用hadoop系列存儲工具呢?
?mysql存放的是數據庫,而hadoop系列存放的是數據倉庫,一方面HDFS針對的是更大規模的數據,另一方面mysql的數據類型只限于數據庫,而HDFS比較靈活,可以存儲各種類型的數據。
具體安裝
?集群中的計算機軟硬件可能有所差異,為了保證一致性,最好使用下載軟件包的方式安裝,而不用apt-get系列工具。一般的安裝過程主要包括:下載,解包,設置環境變量,修改配置文件,啟動等幾個部分。