HDFS

一、HDFS簡(jiǎn)介
  • Hadoop Distributed filesystem:Hadoop分布式文件系統(tǒng)
  • HDFS以流式數(shù)據(jù)訪問(wèn)模式來(lái)存儲(chǔ)超大文件。一次寫(xiě)入、多次讀取。能存儲(chǔ)PB級(jí)的數(shù)據(jù)。
  • 運(yùn)行在普通硬件上。因?yàn)镠DFS可以防止宕機(jī)時(shí)數(shù)據(jù)丟失。
  • HDFS是為高數(shù)據(jù)吞吐量應(yīng)用優(yōu)化的,間接提高了時(shí)間延遲,所以對(duì)于低延遲的的訪問(wèn)需求,最好使用HBase。
  • 不適合存儲(chǔ)大量的小文件。namenode將文件系統(tǒng)的元數(shù)據(jù)存儲(chǔ)在內(nèi)存中,因此該文件系統(tǒng)所能存儲(chǔ)的文件總數(shù)受限于namenode的內(nèi)存容量。
  • HDFS中的文件只有一個(gè)writer,而且寫(xiě)操作總是將數(shù)據(jù)添加在文件的末尾,他不支持具有多個(gè)寫(xiě)入者的操作,也不支持在文件的任意位置進(jìn)行修改。
二、HDFS相關(guān)概念
1.數(shù)據(jù)塊
  • 傳統(tǒng)磁盤(pán)塊:每個(gè)磁盤(pán)都有默認(rèn)的數(shù)據(jù)塊大小,這是磁盤(pán)進(jìn)行數(shù)據(jù)讀寫(xiě)的最小單位。構(gòu)建于單個(gè)磁盤(pán)之上的文件系統(tǒng)通過(guò)磁盤(pán)塊來(lái)管理該文件系統(tǒng)中的塊,該文件系統(tǒng)塊的大小可以使磁盤(pán)塊的整數(shù)倍。文件系統(tǒng)塊一般為幾千字節(jié),而磁盤(pán)塊一般為512字節(jié)。

  • HDFS中的塊(block):默認(rèn)為64MB(根據(jù)需要修改)。HDFS上的文件也被劃分為塊大小的多個(gè)分塊,作為獨(dú)立的存儲(chǔ)單元。

    1.HDFS的塊比磁盤(pán)的塊大,目的是為了最小化尋址開(kāi)銷。
    2.塊不能設(shè)置的過(guò)大,map任務(wù)通常一次只處理一個(gè)塊中的數(shù)據(jù),任務(wù)數(shù)過(guò)少會(huì)影響運(yùn)行速度。
    3.HDFS中的塊是抽象的。
      好處一:一個(gè)文件的大小可以大于網(wǎng)絡(luò)中任何一個(gè)磁盤(pán)的容量。
      好處二:簡(jiǎn)化了存儲(chǔ)子系統(tǒng)的設(shè)計(jì)。
      好初三:塊非常適合用于數(shù)據(jù)備份進(jìn)而提供數(shù)據(jù)容錯(cuò)能力和提高可用性。
    
2.namenode和datanode

HDFS集群有兩類節(jié)點(diǎn):一個(gè)namenode(管理者)和多個(gè)datanode(工作者)。

  • namenode管理文件系統(tǒng)的命名空間。它維護(hù)著文件系統(tǒng)樹(shù)及整棵樹(shù)內(nèi)所有的文件和目錄。這些信息以兩個(gè)文件形式永久保存在本地磁盤(pán)上:命名空間鏡像文件和編輯日志文件。namenode也記錄著每個(gè)文件中各個(gè)塊所在的數(shù)據(jù)節(jié)點(diǎn)信息,但它并不永久保存塊的位置信息,因?yàn)檫@些信息會(huì)在系統(tǒng)啟動(dòng)時(shí)由數(shù)據(jù)節(jié)點(diǎn)重建。
  • 客戶端(client)代表用戶通過(guò)與namenode和datanode交互來(lái)訪問(wèn)整個(gè)文件系統(tǒng)。
  • datanode是文件系統(tǒng)的工作節(jié)點(diǎn)。根據(jù)需要存儲(chǔ)并檢索數(shù)據(jù)塊,并定期向namenode發(fā)送它們所存儲(chǔ)的塊的列表。

namenode的兩種容錯(cuò)機(jī)制

  • 機(jī)制一:備份組成文件系統(tǒng)元數(shù)據(jù)持久狀態(tài)的文件。將持久狀態(tài)寫(xiě)入本地磁盤(pán)的同時(shí),寫(xiě)入一個(gè)遠(yuǎn)程掛載的網(wǎng)絡(luò)文件系統(tǒng)。
  • 機(jī)制二:運(yùn)行一個(gè)輔助namenode,作用是定期通過(guò)編輯日志合并命名空間鏡像,以防止編輯日志過(guò)大。這個(gè)輔助namenode一般在另一臺(tái)單獨(dú)的物理計(jì)算機(jī)上運(yùn)行,它會(huì)保存合并后的命名空間鏡像的副本,并在namenode發(fā)生故障時(shí)啟用。
3.HDFS的高可用性

Hadoop的2.X發(fā)行版本中,配置了一對(duì)活動(dòng)-備用namenode,當(dāng)活動(dòng)namenode失效,備用namenode就會(huì)將接管他的任務(wù)并開(kāi)始服務(wù)于來(lái)自客戶端的請(qǐng)求,不會(huì)有任何明顯中斷。實(shí)現(xiàn)這一目標(biāo)需要在架構(gòu)上做如下修改:

  • namenode之間需要通過(guò)高可用的共享存儲(chǔ)實(shí)現(xiàn)編輯日志的共享。當(dāng)備用namenode接管工作之后,它將通讀共享編輯日志直至末尾,以實(shí)現(xiàn)與活動(dòng)namenode的狀態(tài)同步,并繼續(xù)讀取由活動(dòng)namenode寫(xiě)入的新條目。
  • datanode需要同時(shí)向兩個(gè)namenode發(fā)送數(shù)據(jù)塊處理報(bào)告,因?yàn)閿?shù)據(jù)塊的映射信息存儲(chǔ)在namenode的內(nèi)存中,而非磁盤(pán)。
  • 客戶端需要使用特定的機(jī)制來(lái)處理namemode的失效問(wèn)題,這一機(jī)制對(duì)用戶是透明的。
4.數(shù)據(jù)流
3.png
4.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,431評(píng)論 6 544
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,637評(píng)論 3 429
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 178,555評(píng)論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 63,900評(píng)論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,629評(píng)論 6 412
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 55,976評(píng)論 1 328
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,976評(píng)論 3 448
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 43,139評(píng)論 0 290
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,686評(píng)論 1 336
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,411評(píng)論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,641評(píng)論 1 374
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,129評(píng)論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,820評(píng)論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 35,233評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 36,567評(píng)論 1 295
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,362評(píng)論 3 400
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,604評(píng)論 2 380

推薦閱讀更多精彩內(nèi)容

  • 首先,我們?cè)谑褂们跋瓤纯碒DFS是什麼?這將有助于我們是以后的運(yùn)維使用和故障排除思路的獲得。 HDFS采用mast...
    W_Bousquet閱讀 4,223評(píng)論 0 2
  • hdfs是什么? 問(wèn)題: 1. hdfs是基于什么樣的原理將文件分塊存儲(chǔ)到分布式環(huán)境中的各個(gè)設(shè)備上的? 2. h...
    4762d2980c91閱讀 4,753評(píng)論 0 6
  • 公司要利用現(xiàn)有業(yè)務(wù)及資源,涉足互聯(lián)網(wǎng)餐飲O2O業(yè)務(wù)領(lǐng)域。但能否涉足,需要弄懂六個(gè)問(wèn)題: 如果要涉足新領(lǐng)域,拓展新業(yè)...
    王毓瓊閱讀 971評(píng)論 0 2
  • 阿黃它總是異于常人(狗),也總能機(jī)靈過(guò)人(狗)。 作為一條聰明的狗,阿黃最近又悟出一個(gè)道理 叫做~輕財(cái)足以聚人(狗...
    拙劣的王閱讀 506評(píng)論 0 0
  • **使用支付寶開(kāi)發(fā)的時(shí)候遇到這個(gè)提示 **關(guān)鍵的就是紅框內(nèi)的提示 ld: '/Users/fcl/Desktop/...
    胖子程閱讀 1,363評(píng)論 0 8