?????? hadoop是一個開源的分布式的分析存儲平臺,hdfs是分布式文件系統用于存儲,mapreduce是并行處理框架用于分析,yarn是集群的資源管理器,zookeeper是分布式服務框架
? ?? ?? hdfs:其中hdfs主要由數據塊,namenode和datanode構成,數據塊存儲三份,datanode存放了數據塊,namenode存放了文件元數據
?????? mapreduce:其中mapreduce主要由jobtracker和tasktracker構成,jobtracker是作業調度,分配任務給tasktracker去執行map任務和reduce任務,并把結果輸出
?????? yarn:在hadoop2.0后推出yarn,其中yarn主要由于resourcemanager和nodemanager構成,resourcemanager調度集群資源,nodemanager是節點管理用于分配容器資源
?????? zookeeper:zookeeper是hadoop中的一個子項目,解決集群中一致性問題,用于監控和維護namenode等數據狀態的一致性問題。
?????? hive:hive是建立在hadoop上的數據倉庫,不需要開發mapreduce任務,通過hql提交事務,本身不存儲和計算,借用hadoop中的mapreduce和hdfs完成執行,所以慢
????? hbase:hbase是建立在hadoop上的nosql數據庫,與hive庫相比,解決了實時性問題,需要實時訪問的數據存入hbase數據庫
????? 集群的簡單運維:
????? 如上圖所示是一個簡單的hadoop集群,在集群維護中,會遇到多種情況,以下簡單的描述下基本處理方法
》slave節點掛了
在命令窗口執行jps,如果無進程,單個的節點掛了只需啟動datanode和nodemanager如下:
./hadoop-daemon.sh start datanode
./yarn-daemon.sh start nodemanager
》slava節點添加
1. 新增:在添加節點的時候,需要在master主機下,vi etc/hadoop/slaves配置新增節點
2. 拷貝包:選擇一個slave節點,把安裝包scp到新增slave節點主機上
3. 拷貝公鑰:選擇一個slave節點,把namenode與datanode之間通信的免登陸公鑰拷貝
4. 啟動datanode和nodemanager,并訪問http://localhost:50070頁面查看Dead Nodes和Live Nodes是否有新增的slave節點
未完待續。。。