HBase講解

1.HBase在Hadoop中的位置

HBase(Hadoop Database)是一個開源的、面向列(Column-Oriented)、適合存儲海量非結構化數據或半結構化數據的、具備高可靠性、高性能、可靈活擴展伸縮的、支持實時數據讀寫的分布式存儲系統。
存儲在HBase中的表的典型特征:

  • 大表(BigTable):一個表可以有上億行,上百萬列
  • 面向列:面向列的存儲、檢索與權限控制
  • 稀疏:表中為空(null)的列不占用存儲空間

2.HBase集群典型部署組網

1.png

Master:又叫HMaster,負責HBase中Table和Region的管理,包括表的增刪改查;Region Server的負載均衡,Region分布調整;Region分裂以及分裂后的Region分配;Region Server失效后的Region遷移等。
ZooKeeper cluster:Zookeeper集群存儲-ROOT-表的地址和Master地址,Region Server主動向Zookeeper注冊,使得Master可隨時感知各Region Server的健康狀態。 Zookeeper另一個重要作用是避免Master 單點故障(SPOF)。
RegionServer:負責數據路由、數據讀寫和數據持久化,是HBase 的數據處理和計算單元,同時還負責區域的分割(即Region Split)。 RegionServer要求和HDFS的DataNode一起部署。

3.HBase系統架構

2.png

HBase Client:Client使用HBase的RPC機制與HMaster、HRegionServer 進行通信。 Client與HMaster進行管理類通信,與HRegion Server進行數據操作類通信。

HRegionServer:HRegionServer內部管理了一系列HRegion對象,每個HRegion對應Table中的一個Region。HRegion由多個Store組成。每個Store對應Table中的一個ColumnFamily的存儲,即一個Store管理一個Region上的一個列族(CF)。每個Store包含一個MemStore和0到多個StoreFile。 Store是HBase的存儲核心,由MemStore 和 StoreFile組成。

HLog:數據在寫入時,首先寫入預寫日志(Write AheadLog),每個HRegionServer服務的所有Region的寫操作日志都存儲在同一個日志文件中。數據并非直接寫入HDFS,而是等緩存到一定數量再批量寫入,寫入完成后在日志中做標記。

MemStore and StoreFile:MemStore是 一個有序的內存緩存區,用戶寫入的數據首先放入MemStore,當MemStore滿了以后Flush成一個StoreFile(存儲時對應為HFile), 當StoreFile數量增到一定閾值,觸發Compact合并,將多個StoreFiles合并成一個StoreFile。StoreFiles 合并后逐步形成越來越大的StoreFile,當Region內所有StoreFiles(Hfile)的總大小超過閾值(hbase.hregion.max.filesize)即觸發分裂Split,把當前的Region Split成2個Region,父Region下線,新Split出的2個孩子Region被HMaster分配到合適的HRegionServer 上,使得原先1個Region的壓力得以分流到2個Region上。

4.HBase數據模型

存儲在HBase表每一行數據都有可排序的關鍵字(Row Key)和任意列項(Column &Column Family)。在HBase中,僅能通過主鍵(Row Key)和主鍵版本號來檢索數據,僅支持單行事務。下面以HBase存儲搜索引擎的網頁為例:

3.png

Row Key:行鍵,相當于關系表的主鍵,每一行數據的唯一標識。字符串、整數、二進制串都可以作為RowKey。所有記錄按照RowKey排序后存儲。

Time Stamp:每次數據操作對應的時間戳,數據按時間戳區分版本,每個Cell的多個版本的數據按時間倒序存儲。

ColumnFamily:Column Family,列簇,一個表在水平方向上由一個或多個CF組成。一個CF可以由任意多個Column組成。Column是CF下的一個標簽,可以在寫入數據時任意添加,因此CF支持動態擴展,無需預先定義Column的數量和類型。 HBase中表的列非常稀疏,不同行的列的個數和類型都可以不同。此外,每個CF都有獨立的TTL(生存周期)。可以只對行上鎖,對行的操作始終是原始的。

5.HBase的物理存儲結構

建表時默認只有一個Region,如果指定Split Key,就會有多個Region。當表的記錄行超過閾值,表按水平方向分割成2個Region,可把Region理解為子表。當Region的行數超過閾值,Region繼續分裂。不同的Region被HMaster分配給合適的HRegionServer管理。每個Region都包含一個隨機ID,Region內的數據按照Row Key有序存儲。


11.PNG

HBase在進行數據存儲時,物理上將同“列簇”的數據存儲在一起,不同“列簇”的數據分開存儲。例如這里的Store1-1對應存儲表Region1上的CF1的所有數據,底層實際存儲時為一個HFile。


114.PNG

HBase文件目錄講解:

  • HDFS在文件系統根目錄下為HBase建立專用存儲目錄。
  • 在HBase目錄下按照表名創建子目錄
  • 在表名子目錄下存放HBase Region塊目錄
  • 在Region塊目錄下按照所存放表的CF建立子目錄,同時該目錄下有一個固定的文件regioninfo目錄
  • regioninfo目錄下建立的文件用來存放表的Scheme信息
  • Column Family下放置的是該CF的HFile文件
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,836評論 6 540
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,275評論 3 428
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,904評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,633評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,368評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,736評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,740評論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,919評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,481評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,235評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,427評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,968評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,656評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,055評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,348評論 1 294
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,160評論 3 398
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,380評論 2 379

推薦閱讀更多精彩內容

  • 最近在逐步跟進Hbase的相關工作,由于之前對Hbase并不怎么了解,因此系統地學習了下Hbase,為了加深對Hb...
    飛鴻無痕閱讀 50,291評論 19 272
  • Hbase架構與原理 HBase是一個分布式的、面向列的開源數據庫,該技術來源于 Fay Chang所撰寫的Goo...
    全能程序猿閱讀 86,307評論 2 37
  • 1. HBase介紹,Hbase是什么? HBase -- Hadoop Database ,是一個高可靠、高性能...
    奉先閱讀 3,772評論 1 36
  • 簡介 [HBase]——Hadoop Database的簡稱,Google BigTable的另一種開源實現方式,...
    高廣超閱讀 2,369評論 1 27
  • 一、HBase簡介 Hbase是什么 HBase是一種構建在HDFS之上的分布式、面向列、多版本、非關系型的數據庫...
    便利蜂數據平臺閱讀 986評論 0 4