WHAT
HDFS:分布式文件系統
Feather:
- 檢測和快速自動恢復
- 支持大文件存儲
- 對文件實行一次寫入、多次讀取的訪問模式
Drawback:
- 延遲高(對于低延遲的訪問需求,可以使用HBase)
- 無法高效存儲大量小文件
- 不支持修改文件,只能執行追加操作
Structure:
-
NameNode:管理文件系統的命名空間,維護文件系統樹、所有文件、目錄以及塊的元數據,元數據有兩種namespace image和edit log。
namenode擁有block和datanode之間的映射關系,但是它并不持久化這些信息,這些信息來源依賴于datanode啟動時向namenode發送的報告。 - SecondaryNameNode:輔助的NameNode,周期性的將edit log文件合并(HDFS的HA機制)
- DataNode :datanode維護著最終的block,并定期向namenode發送該datanode包含的block列表(心跳機制)。
HDFS架構
WHERE
整個工作流上的位置
HOW
- hadoop fs -ls : 查看HDFS下的文件列表
- hadoop fs -mkdir:創建目錄
- hadoop fs -put:上傳文件
- hadoop fs -get:下載文件到本地
- hadoop fs -cat:查看文件內容
- hadoop fs -rm:刪除文件