庖丁解LevelDB之數據存儲

作為一個存儲引擎,數據存儲自然是LevelDB重中之重的需求。我們已經在庖丁解LevelDB之概覽中介紹了Leveldb的使用流程,以及數據在Memtable,Immutable,SST文件之間的流動。本文就將詳細的介紹LevelDB的數據存儲方式,包括數據在不同介質中的存儲方式,數據結構及設計思路。

Memtable

Memtable對應Leveldb中的內存數據,LevelDB的寫入操作會直接將數據寫入到Memtable后返回。讀取操作又會首先嘗試從Memtable中進行查詢。我們對Memtable的需求如下:

  • 常駐內存;
  • 可能會有頻繁的插入和查詢操作;
  • 不會有刪除操作;
  • 需要支持阻寫狀態下的遍歷操作(Immutable的Dump過程)

LevelDB采用跳表SkipList實現,在給提供了O(logn)的時間復雜度的同時,又非常的易于實現:

跳表

SkipList中單條數據存放一條Key-Value數據,定義為:

SkipList Node := InternalKey + ValueString
InternalKey := KeyString + SequenceNum + Type
Type := kDelete or kValue
ValueString := ValueLength + Value
KeyString := UserKeyLength + UserKey

Log

數據寫入Memtable之前,會首先順序寫入Log文件,以避免數據丟失。LevelDB實例啟動時會從Log文件中恢復Memtable內容。所以我們對Log的需求是:

  • 磁盤存儲
  • 大量的Append操作
  • 沒有刪除單條數據的操作
  • 遍歷的讀操作

LevelDB首先將每條寫入數據序列化為一個Record,單個Log文件中包含多個Record。同時,Log文件又劃分為固定大小的Block單位,并保證Block的開始位置一定是一個新的Record。這種安排使得發生數據錯誤時,最多只需丟棄一個Block大小的內容。顯而易見地,不同的Record可能共存于一個Block,同時,一個Record也可能橫跨幾個Block。

Log format
Block := Record * N
Record := Header + Content
Header := Checksum + Length + Type
Type := Full or First or Midder or Last

Log文件劃分為固定長度的Block,每個Block中包含多個Record;Record的前56個字節為Record頭,包括32位checksum用做校驗,16位存儲Record實際內容數據的長度,8位的Type可以是Full、First、Middle或Last中的一種,表示該Record是否完整的在當前的Block中,如果不是則通過Type指明其前后的Block中是否有當前Record的前驅后繼。

SST文件

SST文件是Leveldb中數據的最終存儲角色,劃分為不同的Level,Level 0的SST文件由Memtable直接Dump產生。其他層次的SST文件則由其上一層文件在Compaction過程中歸并產生。讀請求時可能會從SST文件中查找某條數據。我們對SST文件的需求是:

  • 支持順序寫操作
  • 支持遍歷操作
  • 查找操作

我們將從物理格式和邏輯格式兩個方面來介紹SST文件中的數據存儲方式。所謂物理格式指的是數據的存儲和解析方式;利用確定的物理格式,我們可以存儲不同意義的數據,這就是數據的邏輯格式。

物理格式

LevelDB將SST文件定義為Table,每個Table又劃分為多個連續的Block,每個Block中又存儲多條數據Entry:

SST物理格式

可以看出,單個Block作為一個獨立的寫入和解析單位,會在其末尾存儲一個字節的Type和4個字節的Crc,其中Type記錄的是當前Block的數據壓縮策略,而Crc則存儲Block中數據的校驗信息。Block中每條數據Entry是以Key-Value方式存儲的,并且是按Key有序存儲,Leveldb很巧妙了利用了有序數組相鄰Key可能有相同的Prefix的特點來減少存儲數據量。如上圖所示,每個Entry只記錄自己的Key與前一個Entry Key的不同部分,例如要順序存儲Key值“apple”和“applepen”的兩條數據,這里第二個Entry中只需要存儲“pen”的信息。在Entry開頭記錄三個長度值,分別是當前Entry和其之前Entry的公共Key Prefix長度、當前Entry Key自有Key部分的長度和Value的長度。通過這些長度信息和其后相鄰的特有Key及Value內容,結合前一條Entry的Key內容,我們可以方便的獲得當前Entry的完整Key和Value信息。

這種方式非常好的減少了數據存儲,但同時也引入一個風險,如果最開頭的Entry數據損壞,其后的所有Entry都將無法恢復。為了降低這個風險,leveldb引入了重啟點,每隔固定條數Entry會強制加入一個重啟點,這個位置的Entry會完整的記錄自己的Key,并將其shared值設置為0。同時,Block會將這些重啟點的偏移量及個數記錄在所有Entry后邊的Tailer中。

邏輯格式

Table中不同的Block物理上的存儲方式一致,如上文所示,但在邏輯上可能存儲不同的內容,包括存儲數據的Block,存儲索引信息的Block,存儲Filter的Block:

SST邏輯格式
  • Footer:為于Table尾部,記錄指向Metaindex Block的Handle和指向Index Block的Handle。需要說明的是Table中所有的Handle是通過偏移量Offset以及Size一同來表示的,用來指明所指向的Block位置。Footer是SST文件解析開始的地方,通過Footer中記錄的這兩個關鍵元信息Block的位置,可以方便的開啟之后的解析工作。另外Footer種還記錄了用于驗證文件是否為合法SST文件的常數值Magicnum。

  • Index Block:記錄Data Block位置信息的Block,其中的每一條Entry指向一個Data Block,其Key值為所指向的Data Block最后一條數據的Key,Value為指向該Data Block位置的Handle?。

  • Metaindex Block:與Index Block類似,由一組Handle組成,不同的是這里的Handle指向的Meta Block。

  • Data Block:以Key-Value的方式存儲實際數據,其中Key定義為:

    DataBlock Key := UserKey + SequenceNum + Type
    Type := kDelete or kValue
    

    對比Memtable中的Key,可以發現Data Block中的Key并沒有拼接UserKey的長度在UserKey前,這是由于上面講到的物理結構中已經有了Key的長度信息。

  • Meta Block:比較特殊的Block,用來存儲元信息,目前LevelDB使用的僅有對布隆過濾器的存儲。寫入Data Block的數據會同時更新對應Meta Block中的過濾器。讀取數據時也會首先經過布隆過濾器過濾。Meta Block的物理結構也與其他Block有所不同:

     [filter 0]
     [filter 1] 
     [filter 2] 
     ... 
     [filter N-1] 
     [offset of filter 0] : 4 bytes 
     [offset of filter 1] : 4 bytes 
     [offset of filter 2] : 4 bytes 
     ... 
     [offset of filter N-1] : 4 bytes 
     [offset of beginning of offset array] : 4 bytes 
     lg(base) : 1 byte
    

    其中每個filter節對應一段Key Range,落在某個Key Range的Key需要到對應的filter節中查找自己的過濾信息,base指定這個Range的大小。

總結

本文重點介紹了LevelDB不同介質角色中數據的存儲方式,并沒有過多的涉及代碼細節。因為一旦有了具體的存儲格式,相關的代碼不過就是在讀寫兩端的序列化反序列化。同樣,之后幾篇博客將要介紹的版本控制,迭代器,緩存等方面的內容也都非常緊密的依賴這些存儲格式。

參考

Source Code:https://github.com/google/leveldb

LevelDB Doc: https://raw.githubusercontent.com/google/leveldb/master/doc/table_format.txt

LevelDB Doc: https://raw.githubusercontent.com/google/leveldb/master/doc/log_format.txt

庖丁解LevelDB之概覽: http://catkang.github.io/2017/01/07/leveldb-summary.html

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,546評論 6 533
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,570評論 3 418
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,505評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,017評論 1 313
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,786評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,219評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,287評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,438評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,971評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,796評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,995評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,540評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,230評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,662評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,918評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,697評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,991評論 2 374

推薦閱讀更多精彩內容