參考鏈接:
MySQL索引背后的數(shù)據(jù)結(jié)構(gòu)及算法原理
B樹、B-樹、B+樹、B*樹
1.B-Tree
為了描述B-Tree,首先定義一條數(shù)據(jù)記錄為一個二元組[key, data],key為記錄的鍵值,對于不同數(shù)據(jù)記錄,key是互不相同的;data為數(shù)據(jù)記錄除key外的數(shù)據(jù)。那么B-Tree是滿足下列條件的數(shù)據(jù)結(jié)構(gòu):
- d為大于1的一個正整數(shù),稱為B-Tree的度。
- h為一個正整數(shù),稱為B-Tree的高度。
- 每個非葉子節(jié)點(diǎn)由n-1個key和n個指針組成,其中d<=n<=2d。
- 子節(jié)點(diǎn)最少包含一個key和兩個指針,最多包含2d-1個key和2d個指針,葉節(jié)點(diǎn)的指針均為null 。
- 所有葉節(jié)點(diǎn)具有相同的深度,等于樹高h(yuǎn)。
- key和指針互相間隔,節(jié)點(diǎn)兩端是指針。
- 一個節(jié)點(diǎn)中的key從左到右遞增排列。
- 如果某個指針在節(jié)點(diǎn)node的左右相鄰key分別是key1和key2且不為null,則其指向的節(jié)點(diǎn)的所有key小于key2且大于key1.
下圖是一個B-Tree:
由于B-Tree的特性,在B-Tree中按key檢索數(shù)據(jù)的算法非常直觀:首先從根節(jié)點(diǎn)進(jìn)行二分查找,如果找到則返回對應(yīng)節(jié)點(diǎn)的data,否則對相應(yīng)區(qū)間的指針指向的節(jié)點(diǎn)遞歸進(jìn)行查找,直到找到節(jié)點(diǎn)或找到null指針,前者查找成功,后者查找失敗。
另外,由于插入刪除新的數(shù)據(jù)記錄會破壞B-Tree的性質(zhì),因此在插入刪除時,需要對樹進(jìn)行一個分裂、合并、轉(zhuǎn)移等操作以保持B-Tree性質(zhì),本文不打算完整討論B-Tree這些內(nèi)容,因?yàn)橐呀?jīng)有許多資料詳細(xì)說明了B-Tree的數(shù)學(xué)性質(zhì)及插入刪除算法。
2.B+Tree
B-Tree有許多變種,其中最常見的是B+Tree,例如MySQL就普遍使用B+Tree實(shí)現(xiàn)其索引結(jié)構(gòu)。
與B-Tree相比,B+Tree有以下不同點(diǎn):
- 每個節(jié)點(diǎn)的指針上限為2d而不是2d+1。
- 內(nèi)節(jié)點(diǎn)不存儲data,只存儲key;葉子節(jié)點(diǎn)不存儲指針。
- 非葉子結(jié)點(diǎn)的子樹指針與關(guān)鍵字個數(shù)相同;
- 非葉子結(jié)點(diǎn)的子樹指針P[i],指向關(guān)鍵字值屬于[K[i], K[i+1])的子樹(B-Tree是開區(qū)間)
- 為所有葉子結(jié)點(diǎn)增加一個鏈指針;
下面是一個簡單的B+Tree示意。
一般來說,B+Tree比B-Tree更適合實(shí)現(xiàn)外存儲索引結(jié)構(gòu),具體原因與外存儲器原理及計(jì)算機(jī)存取原理有關(guān)。
在B+Tree的每個葉子節(jié)點(diǎn)增加一個指向相鄰葉子節(jié)點(diǎn)的指針,就形成了帶有順序訪問指針的B+Tree。做這個優(yōu)化的目的是為了提高區(qū)間訪問的性能,例如圖中如果要查詢key為從20到33的所有數(shù)據(jù)記錄,當(dāng)找到20后,只需順著節(jié)點(diǎn)和指針順序遍歷就可以一次性訪問到所有數(shù)據(jù)節(jié)點(diǎn),極大提到了區(qū)間查詢效率。