hadoop生態圈各個模板淺析梳理

?????? hadoop是一個開源的分布式的分析存儲平臺,hdfs是分布式文件系統用于存儲,mapreduce是并行處理框架用于分析,yarn是集群的資源管理器,zookeeper是分布式服務框架

? ?? ?? hdfs:其中hdfs主要由數據塊,namenode和datanode構成,數據塊存儲三份,datanode存放了數據塊,namenode存放了文件元數據

?????? mapreduce:其中mapreduce主要由jobtracker和tasktracker構成,jobtracker是作業調度,分配任務給tasktracker去執行map任務和reduce任務,并把結果輸出

?????? yarn:在hadoop2.0后推出yarn,其中yarn主要由于resourcemanager和nodemanager構成,resourcemanager調度集群資源,nodemanager是節點管理用于分配容器資源

?????? zookeeper:zookeeper是hadoop中的一個子項目,解決集群中一致性問題,用于監控和維護namenode等數據狀態的一致性問題。

?????? hive:hive是建立在hadoop上的數據倉庫,不需要開發mapreduce任務,通過hql提交事務,本身不存儲和計算,借用hadoop中的mapreduce和hdfs完成執行,所以慢

????? hbase:hbase是建立在hadoop上的nosql數據庫,與hive庫相比,解決了實時性問題,需要實時訪問的數據存入hbase數據庫

????? 集群的簡單運維:

集群體系結構

????? 如上圖所示是一個簡單的hadoop集群,在集群維護中,會遇到多種情況,以下簡單的描述下基本處理方法

》slave節點掛了

在命令窗口執行jps,如果無進程,單個的節點掛了只需啟動datanode和nodemanager如下:

./hadoop-daemon.sh start datanode

./yarn-daemon.sh start nodemanager

》slava節點添加

1. 新增:在添加節點的時候,需要在master主機下,vi etc/hadoop/slaves配置新增節點

2. 拷貝包:選擇一個slave節點,把安裝包scp到新增slave節點主機上

3. 拷貝公鑰:選擇一個slave節點,把namenode與datanode之間通信的免登陸公鑰拷貝

4. 啟動datanode和nodemanager,并訪問http://localhost:50070頁面查看Dead NodesLive Nodes是否有新增的slave節點

未完待續。。。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容