一.HDFS簡介
hdfs是一個文件系統(tǒng),用于存儲文件,通過統(tǒng)一的命名空間——目錄樹來定位文件,并且是分布式的,由很多服務器聯(lián)合起來實現(xiàn)其功能,集群中相關(guān)角色各自負責自己的功能。
重要特征:
1.HDFS中的文件在物理上是分塊存儲(block),塊的大小可以通過配置參數(shù)( dfs.blocksize)來規(guī)定,默認大小在hadoop2.x版本中是128M,老版本中是64M。
2.HDFS文件系統(tǒng)會給客戶端提供一個統(tǒng)一的抽象目錄樹(和linux文件系統(tǒng)類似),客戶端通過路徑來訪問文件,形如:/etc/test/...
3.目錄結(jié)構(gòu)及文件分塊信息(元數(shù)據(jù))的管理由namenode節(jié)點承擔——namenode是HDFS集群主節(jié)點,負責維護整個hdfs文件系統(tǒng)的目錄樹,以及每一個路徑(文件)所對應的block塊信息(block的id,及所在的datanode服務器)
4.文件的各個block的存儲管理由datanode節(jié)點承擔---- datanode是HDFS集群從節(jié)點,每一個block都可以在多個datanode上存儲多個副本(副本數(shù)量也可以通過參數(shù)設(shè)置dfs.replication)
5.HDFS是設(shè)計成適應一次寫入,多次讀出的場景,不支持文件的修改,但支持數(shù)據(jù) append(追加)
二.HDFS的工作機制
1.概述
(1)HDFS集群分為兩大角色:NameNode、DataNode
(2)NameNode負責管理整個文件系統(tǒng)的元數(shù)據(jù)
(3)DataNode 負責管理用戶的文件數(shù)據(jù)塊
(4)文件會按照固定的大小(blocksize)切成若干塊后分布式存儲在若干臺datanode上
(5)每一個文件塊可以有多個副本,并存放在不同的datanode上
(6)Datanode會定期向Namenode匯報自身所保存的文件block信息,而namenode則會負責保持文件的副本數(shù)量
(7)HDFS的內(nèi)部工作機制對客戶端保持透明,客戶端請求訪問HDFS都是通過向namenode申請來進行
2.HDFS如何存儲數(shù)據(jù)
HDFS 采用Master/Slave的架構(gòu)來存儲數(shù)據(jù),這種架構(gòu)主要由四個部分組成,分別為HDFS Client、NameNode、DataNode和Secondary NameNode。下面我們分別介紹這四個組成部分。
Client:就是客戶端。
1、文件切分。文件上傳 HDFS 的時候,Client 將文件切分成 一個一個的Block,然后進行存儲。
2、與 NameNode 交互,獲取文件的位置信息。
3、與 DataNode 交互,讀取或者寫入數(shù)據(jù)。
4、Client 提供一些命令來管理 HDFS,比如啟動或者關(guān)閉HDFS。
5、Client 可以通過一些命令來訪問 HDFS。
NameNode:就是 master,它是一個主管、管理者。
1、管理 HDFS 的名稱空間。
2、管理數(shù)據(jù)塊(Block)映射信息
3、配置副本策略
4、處理客戶端讀寫請求。
DataNode:就是Slave。NameNode 下達命令,DataNode 執(zhí)行實際的操作。
1、存儲實際的數(shù)據(jù)塊。
2、執(zhí)行數(shù)據(jù)塊的讀/寫操作。
Secondary NameNode:并非 NameNode 的熱備。當NameNode 掛掉的時候,它并不能馬上替換 NameNode 并提供服務。
1、輔助 NameNode,分擔其工作量。
2、定期合并 fsimage和fsedits,并推送給NameNode。
3、在緊急情況下,可輔助恢復 NameNode。
3.HDFS如何讀取文件
1、跟namenode通信查詢元數(shù)據(jù),找到文件塊所在的datanode服務器(這一步是由DistributedFileSystem通過RPC(遠程過程調(diào)用)完成的)。
2、然后從獲得的服務器地址(因為一個block一般由3個服務器備份)中根據(jù)Hadoop拓撲結(jié)構(gòu)排序(可以簡單理解為最近的服務器)選擇最優(yōu)的datanode,請求建立socket連接。
3、datanode開始發(fā)送數(shù)據(jù)(從磁盤里面讀取數(shù)據(jù)放入流,以packet為單位來做校驗)
4、客戶端以packet為單位接收,先在本地緩存,然后寫入目標文件
5、如果第一個block塊的數(shù)據(jù)讀完了,就會關(guān)閉指向第一個block塊的datanode連接,接著讀取下一個block塊(因為第一步可能獲取多個block的地址)。這些操作對客戶端來說是透明的,從客戶端的角度來看只是讀一個持續(xù)不斷的流。
6、如果第一批block都讀完了,DFSInputStream就會去namenode拿下一批blocks的namenode地址,然后繼續(xù)讀,如果所有的block塊都讀完,這時就會關(guān)閉掉所有的流。
4.HDFS如何寫文件
1.客戶端通過調(diào)用 DistributedFileSystem 的create方法,創(chuàng)建一個新的文件。
2.DistributedFileSystem 通過 RPC(遠程過程調(diào)用)調(diào)用 NameNode,去創(chuàng)建一個沒有blocks關(guān)聯(lián)的新文件。創(chuàng)建前,NameNode 會做各種校驗,比如文件是否存在,客戶端有無權(quán)限去創(chuàng)建等。如果校驗通過,NameNode 就會記錄下新文件,否則就會拋出IO異常。
3.前兩步結(jié)束后會返回 FSDataOutputStream 的對象,和讀文件的時候相似,F(xiàn)SDataOutputStream 被封裝成 DFSOutputStream,DFSOutputStream 可以協(xié)調(diào) NameNode和 DataNode。客戶端開始寫數(shù)據(jù)到DFSOutputStream,DFSOutputStream會把數(shù)據(jù)切成一個個小packet,然后排成隊列 data queue。
4.DataStreamer 會去處理接受 data queue,它先問詢 NameNode 這個新的 block 最適合存儲的在哪幾個DataNode里,比如重復數(shù)是3,那么就找到3個最適合的 DataNode,把它們排成一個 pipeline。DataStreamer 把 packet 按隊列輸出到管道的第一個 DataNode 中,第一個 DataNode又把 packet 輸出到第二個 DataNode 中,以此類推。
5.DFSOutputStream 還有一個隊列叫 ack queue,也是由 packet 組成,等待DataNode的收到響應,當pipeline中的所有DataNode都表示已經(jīng)收到的時候,這時akc queue才會把對應的packet包移除掉。
6.客戶端完成寫數(shù)據(jù)后,調(diào)用close方法關(guān)閉寫入流。
7.DataStreamer 把剩余的包都刷到 pipeline 里,然后等待 ack 信息,收到最后一個 ack 后,通知 DataNode 把文件標示為已完成。
5.Namenode工作機制
1.Namenode工作職責:負責客戶端請求的響應,元數(shù)據(jù)的管理(查詢,修改)
2.元數(shù)據(jù)管理 : namenode對數(shù)據(jù)的管理采用了三種存儲形式:內(nèi)存元數(shù)據(jù)(NameSystem) 磁盤元數(shù)據(jù)鏡像文件 數(shù)據(jù)操作日志文件(可通過日志運算出元數(shù)據(jù))
3.元數(shù)據(jù)存儲機制:
A、內(nèi)存中有一份完整的元數(shù)據(jù)(內(nèi)存meta data)
B、磁盤有一個“準完整”的元數(shù)據(jù)鏡像(fsimage)文件(在namenode的工作目錄中)
C、用于銜接內(nèi)存metadata和持久化元數(shù)據(jù)鏡像fsimage之間的操作日志(edits****文件)注:當客戶端對hdfs中的文件進行新增或者修改操作,操作記錄首先被記入edits日志文件中,當客戶端操作成功后,相應的元數(shù)據(jù)會更新到內(nèi)存meta.data中
4.元數(shù)據(jù)的checkpoint:每隔一段時間,會由secondary namenode將namenode上積累的所有edits和一個最新的fsimage下載到本地,并加載到內(nèi)存進行merge(這個過程稱為checkpoint)
checkpoint操作的觸發(fā)條件配置參數(shù):
dfs.namenode.checkpoint.check.period=60 #檢查觸發(fā)條件是否滿足的頻率,60秒
dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary
#以上兩個參數(shù)做checkpoint操作時,secondary namenode的本地工作目錄
dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}
dfs.namenode.checkpoint.max-retries=3 #最大重試次數(shù)
dfs.namenode.checkpoint.period=3600 #兩次checkpoint之間的時間間隔3600秒
dfs.namenode.checkpoint.txns=1000000 #兩次checkpoint之間最大的操作記錄
checkpoint的附帶作用
namenode和secondary namenode的工作目錄存儲結(jié)構(gòu)完全相同,所以,當namenode故障退出需要重新恢復時,可以從secondary namenode的工作目錄中將fsimage拷貝到namenode的工作目錄,以恢復namenode的元數(shù)據(jù)
6.Datanode工作機制
1.Datanode工作職責:存儲管理用戶的文件塊數(shù)據(jù),定期向namenode匯報自身所持有的block信息(通過心跳信息上報)
<property>
<name>dfs.blockreport.intervalMsec</name>
<value>3600000</value>
<description>Determines block reporting interval in milliseconds.</description>
</property>
2.Datanode掉線判斷時限參數(shù)
datanode進程死亡或者網(wǎng)絡(luò)故障造成datanode無法與namenode通信,namenode不會立即把該節(jié)點判定為死亡,要經(jīng)過一段時間,這段時間暫稱作超時時長。HDFS默認的超時時長為10分鐘+30秒。如果定義超時時間為timeout,則超時時長的計算公式為:
timeout = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval。
而默認的heartbeat.recheck.interval 大小為5分鐘,dfs.heartbeat.interval默認為3秒。
需要注意的是hdfs-site.xml 配置文件中的heartbeat.recheck.interval的單位為毫秒,dfs.heartbeat.interval的單位為秒。所以,舉個例子,如果heartbeat.recheck.interval設(shè)置為5000(毫秒),dfs.heartbeat.interval設(shè)置為3(秒,默認),則總的超時時間為40秒。
<property>
<name>heartbeat.recheck.interval</name>
<value>2000</value>
</property>
<property>
<name>dfs.heartbeat.interval</name>
<value>1</value>
</property>
參考博客:
https://blog.csdn.net/kezhong_wxl/article/details/76573901
https://www.cnblogs.com/growth-hong/p/6396332.html