目錄
- 1.查找問(wèn)題
- 2.表(數(shù)組、鏈表)
2.1 順序搜索(未排序的:線(xiàn)性時(shí)間)
2.2 二分查找(排序好的:對(duì)數(shù)時(shí)間) - 3.散列表(常數(shù)時(shí)間)
3.1 直接尋址表
3.2 散列表
??3.2.1 鏈接法解決沖突
3.3 散列函數(shù)
??3.3.1 除法散列法
??3.3.2 乘法散列法
??3.3.3 全域散列法(隨機(jī)選擇一個(gè)散列函數(shù),在某次計(jì)算中一直用h,不要理解錯(cuò)了)
3.4 開(kāi)放尋址法
3.5 完全散列
3.6 可擴(kuò)散列 - 4.二叉搜索樹(shù)
- 5.平衡查找樹(shù)
1.查找問(wèn)題
給定一個(gè)n個(gè)元素的序列或集合,在該序列或集合里面查找一個(gè)特定的元素
2.表(數(shù)組、鏈表)
2.1 順序搜索(未排序的:線(xiàn)性時(shí)間)
2.2 二分查找(排序好的:對(duì)數(shù)時(shí)間)
時(shí)間分析:
可得:T(n) = Θ(lgn)
3.散列表(常數(shù)時(shí)間)
如果空間允許,可以提供一個(gè)數(shù)組,為每個(gè)可能的關(guān)鍵字保留一個(gè)位置,以利用直接尋址的優(yōu)勢(shì)。
當(dāng)實(shí)際存儲(chǔ)的關(guān)鍵字?jǐn)?shù)目比全部可能關(guān)鍵字總數(shù)要小時(shí),采用散列表。在散列表里,根據(jù)關(guān)鍵字計(jì)算出相應(yīng)的下標(biāo)。
3.1 直接尋址表
當(dāng)關(guān)鍵字的全域U比較小時(shí),直接尋址是一種簡(jiǎn)單有效的技術(shù)。
3.2 散列表
1)全域U很大
2)實(shí)際存儲(chǔ)的關(guān)鍵字集合K相對(duì)U來(lái)說(shuō)很小
因此,將散列表的存儲(chǔ)需求降至為Θ(|K|)
利用散列函數(shù)h,將關(guān)鍵字的全域U映射到散列表T[0..m-1]的槽位上:
3.2.1 鏈接法解決沖突
一個(gè)問(wèn)題:兩個(gè)關(guān)鍵字可能映射到同一個(gè)槽中,稱(chēng)之為沖突。
鏈接法:把散列到同一槽中的所有元素都放在一個(gè)鏈表中。
鏈接法散列的分析:
裝載因子:n個(gè)元素、m個(gè)槽位的散列表T,裝載因子為n/m
最壞情況:所有的n個(gè)關(guān)鍵字都散列到同一個(gè)槽中,查找時(shí)間為Θ(n)
散列方法的平均性能依賴(lài)于所選取的散列函數(shù)h,將所有的關(guān)鍵字集合分布在m個(gè)槽位上的均勻程度。
簡(jiǎn)單均勻散列假設(shè):假定任何一個(gè)給定元素等可能地散列到m個(gè)槽位中的任何一個(gè),且與其他元素被散列到什么位置上無(wú)關(guān)。
上面的分析意味著:如果散列表中槽數(shù)至少與表中的元素?cái)?shù)成正比,則有n=O(m),從而α=n/m=O(1),所以查找操作平均需要常數(shù)時(shí)間。
3.3 散列函數(shù)
1)用除法進(jìn)行散列——啟發(fā)式方法
2)用乘法進(jìn)行散列——啟發(fā)式方法
3)全域散列——隨機(jī)技術(shù)
一個(gè)好的散列函數(shù)應(yīng)(近似的)滿(mǎn)足簡(jiǎn)單均勻假設(shè):每個(gè)關(guān)鍵字都被等可能地散列到m個(gè)槽位中的任何一個(gè),并與其他關(guān)鍵字已散列到哪個(gè)槽位無(wú)關(guān)。
多數(shù)散列函數(shù)都假定關(guān)鍵字的全域?yàn)樽匀粩?shù)集,如果不是,就要找到一種方法將它們轉(zhuǎn)換為自然數(shù)。
3.3.1 除法散列法
h(k) = k mod m
當(dāng)應(yīng)用除法散列時(shí),要避免選擇m的某些值。m不應(yīng)為2的冪。
一個(gè)不太接近2的整數(shù)冪的素?cái)?shù),常常是m的一個(gè)較好的選擇。
m不應(yīng)為2的冪,因?yàn)槿绻鹠=2?,則h(k)就是k的n個(gè)最低位數(shù)字。
除非已知各種最低n位的排列形式為等可能,
否則在設(shè)計(jì)散列函數(shù)時(shí),最好考慮關(guān)鍵字的所有位。
例子:
假定分配一張散列表并用鏈接法解決沖突,表中大約存放n=2000個(gè)字符串,
其中每個(gè)字符有8位。如果不介意一次不成功的查找需要平局檢查3個(gè)元素,
這樣分配散列表的大小為m = 701.
因?yàn)?01接近2000/3,并且不接近2的任何次冪的素?cái)?shù)。
3.3.2 乘法散列法
3.3.3 全域散列法(隨機(jī)選擇一個(gè)散列函數(shù),在某次計(jì)算中一直用h,不要理解錯(cuò)了)
任何一個(gè)特定的散列函數(shù)都可能出現(xiàn)將n個(gè)關(guān)鍵字全部散列到同一個(gè)槽中。唯一有效的改進(jìn)方法是隨機(jī)地選擇散列函數(shù),使之獨(dú)立于要存儲(chǔ)的關(guān)鍵字,這種方法稱(chēng)之為全域散列。
全域散列函數(shù)的定義:
全域散列函數(shù)類(lèi)的平均性態(tài)是比較好的:
全域散列法:通過(guò)在運(yùn)行時(shí)聰明地隨機(jī)選擇散列函數(shù),就可以確保每一個(gè)操作序列都具有良好的平均情況運(yùn)行時(shí)間。
設(shè)計(jì)一個(gè)全域散列函數(shù)類(lèi)(數(shù)論相關(guān))
3.4 開(kāi)放尋址法
所有的元素都存放在散列表里面。導(dǎo)致裝載因子α不會(huì)超過(guò)1.
1)探查probe
假定不會(huì)刪除元素:
刪除(必須刪除時(shí),一般采用鏈接法來(lái)解決沖突):
均勻散列假設(shè):每個(gè)關(guān)鍵字的探查序列等可能地為m!種排列的任一種。
2)線(xiàn)性探查
若一個(gè)空槽前有i個(gè)滿(mǎn)的槽時(shí),該空槽為下一個(gè)將被占用的概率(i+1)/m。
證明:若T[h'(k)]若等于這個(gè)i個(gè)槽或者該空槽時(shí),該空槽都將被填滿(mǎn),因此概率為(i+1)/m
使用線(xiàn)性探查插入關(guān)鍵字{89,18,49,58,69}:
第一次沖突:49,放到下一個(gè)空閑地址0
第二次沖突:58,與18,89,49沖突
第三次沖突:69,與89,49,58沖突
3)二次探查(平方探查)
選擇二次形式為:i2
第一次沖突:49
第二個(gè)沖突:58,與18,89沖突(比線(xiàn)性查找少)
第三個(gè)沖突:69,與89,48沖突(比線(xiàn)性查找少)
這里證明的核心是:
1)從i取值0..ceil(TableSize/2) 個(gè)備選中,T[h'(k) + i2]均不相同(超過(guò)一半各不相同)
2)因此,若此時(shí)表中至少有一半是空的時(shí)候,則必有一個(gè)空位可以插入
注意:表的大小是素?cái)?shù)非常重要
1)如果表示16,那么備選單元只能在距離散列值1,4,9
因此i取值0-15,i2mod16取值為(0, 1, 4, 9, 16:1, 25:9, 36:4, 49:1, 64:0 ... )
備選單元銳減
2)如果表的大小是4k+3,且使用二次型為±i2,那么整個(gè)表均可被探測(cè)到
4)雙重散列
h2(k)的選擇:
a.函數(shù)一定不能算得0值
b.保證所有單元都能被探測(cè)到
如下例子中選擇h2(k) = R-(k mod R),T為小于TableSize的素?cái)?shù),選擇R = 7.
第一次沖突:49, (7 - (49 mod 7)) = 7
第二個(gè)沖突:58, (7 - (58 mod 7)) = 5
第三個(gè)沖突:69, (7 - (69 mod 7)) = 1
這三個(gè)元素分別只有一個(gè)沖突,比二次和一次都要少很多
5)開(kāi)放尋址散列的分析
另一種理解方法:
一次不成功查找中探查的期望次數(shù),正是知道我們找到一個(gè)空單元的探查的期望次數(shù)。
由于空單元所占的份額是1-α,因此要探測(cè)的單元數(shù)是1/(1-α)
另一種理解方法:
6)再散列
對(duì)于使用平方探測(cè)的開(kāi)放定址散列法,如果表的元素填的太滿(mǎn),那么操作的運(yùn)行時(shí)間將開(kāi)始消耗過(guò)長(zhǎng),且插入操作可能失敗。
再散列法:一種解決方法是建立另外一個(gè)大約兩倍大的表(且使用一個(gè)相關(guān)的新的散列函數(shù)),掃描整個(gè)原始散列表,計(jì)算每個(gè)(未刪除)元素的新散列值并將其插入到新表中。
由于不是經(jīng)常發(fā)生,因此實(shí)際效果根本沒(méi)有這么差。
實(shí)現(xiàn)方法:當(dāng)表到達(dá)某一個(gè)裝填因子時(shí)進(jìn)行再散列。