關于哈希表里面的這些個定址和解決沖突的方法名詞我一直記不住,今天閑下來就花點時間來學習之、記錄之、分享之。
哈希函數構造方法
構造哈希函數的目標是使得到的哈希地址盡可能均勻地分布在n個連續內存單元地址上,同時使計算過程盡可能簡單以達到盡可能高的時間效率。根據關鍵字的結構和分布的不同,可構造出許多不同的哈希函數。Java中的超級父類Object中就有得到哈希值的方法,以下是截取Java api 1.6中Object類說明的一段
public int hashCode()返回該對象的哈希碼值。支持此方法是為了提高哈希表(例如 java.util.Hashtable 提供的哈希表)的性能。 hashCode 的常規協定是:
- 在 Java 應用程序執行期間,在對同一對象多次調用 hashCode 方法時,必須一致地返回相同的整數,前提是將對象進行 equals 比較時所用的信息沒有被修改。從某一應用程序的一次執行到同一應用程序的另一次執行,該整數無需保持一致。
- 如果根據 equals(Object) 方法,兩個對象是相等的,那么對這兩個對象中的每個對象調用 hashCode 方法都必須生成相同的整數結果。
- 如果根據 equals(java.lang.Object) 方法,兩個對象不相等,那么對這兩個對象中的任一對象上調用 hashCode 方法不 要求一定生成不同的整數結果。但是,程序員應該意識到,為不相等的對象生成不同整數結果可以提高哈希表的性能。
- 實際上,由 Object 類定義的 hashCode 方法確實會針對不同的對象返回不同的整數。(這一般是通過將該對象的內部地址轉換成一個整數來實現的,但是 JavaTM 編程語言不需要這種實現技巧。)
下面具體說說構造方法。可能在不同書籍上看到的方法名字不一樣,主要是理解思想。(定義關鍵字為k,哈希函數為h(k),表長為m)
1.直接定址法
直接以關鍵字k或者k加上某個常數(k+c)作為哈希地址,即:h(k) = k + c這種哈希函數計算簡單。當關鍵字基本連續時用這種方法十分方便,若關鍵字不連續的話將造成內存單元大量浪費。
2.數字分析法
提取關鍵字中取值比較均勻的數字作為哈希地址。它適用于關鍵字都已知的情況,并需要對關鍵字中每一位的取值進行分析。比如有80個記錄,關鍵字是一個8位的十進制整數:m1m2m3...m7m8,如哈希表長度為100,則哈希表地址空間為0-99。進過分析各關鍵字m1m2m3取值比較集中(多個關鍵字重復或相似)就不宜作為哈希地址;相反,門m4m5m7m8取值比較分散,則可根據需要選取若干位作為哈希地址,即:h(k) = m4m5m7 etc.
3.除留余數法
用關鍵字k除以某個不大于哈希表長度m的數p,將所得余數作為哈希表地址。即:h(k) = k mod p;這種方法計算比較簡單,適用范圍廣,是最經常使用的一種哈希函數。這種方法的關鍵是選好p,使得元素集合中每一個關鍵字通過該函數轉換后映射到哈希表范圍的任意地址上的概率相等,從而盡可能減少沖突的可能性。
4.分段疊加法
按照哈希表地址位數將關鍵字分成位數相等的幾部分,其中最后一部分可以比較短。然后將這幾部分相加,舍棄最高進位后的結果就是該關鍵字的哈希地址。分段疊加又可以分成折疊法和位移法兩種。位移法是將分割后的每部分低位對齊相加;折疊法是將奇數段正序偶數段逆序然后相加。
5.平方取中法
如果關鍵字各個部分分布都不均勻的話,可以先求出它的平方值,然后按照需求取中間的幾位作為哈希地址。因為平方值的中間部分跟關鍵字的每一位都有相關性,所以產生隨機數的概率比較高。
6.偽隨機數法
插個嘴,最近看到這樣一句話:計算機中沒有正真的隨機數,都是偽隨機數,得到隨機數的方法都是程序員寫的代碼,當然這里面的細節我就不是很清楚了。偽隨機數法是指采用一個偽隨機數當作哈希函數,即h(k) = random(k);
在判斷性能時通常要考慮4個因素:
- 計算哈希函數所需要的時間。
- 關鍵字的長度
- 關鍵字分布情況
- 查找頻率
性能好的哈希函數能減少沖突,通常不可能完全避免沖突,所以解決沖突也是哈希表的另一個關鍵問題。解決沖突在創建哈希表和查找時應該保持一致。
處理哈希沖突
1.開放定址法(再散列法)
在開法定址法中,哈希表中的空閑單元(記為d)不僅允許哈希地址為d的同義詞關鍵字使用,而且也允許發生沖突的其他關鍵字使用。開法定址法的名字就是來自于此方法的哈希表空閑單元既向同義詞開放,也向發生沖突的非同義詞關鍵字開放。誰先找到這個單元誰先占用,這和哈希表的元素排列次序有關。開放定址法以發生沖突的地址d作為自變量來得到一個新的空閑單元,下面介紹常用的幾種。(d加下標i記為d[i],小i打不出來==)
1.線性探查法
發生沖突時,線性遍歷后續單元直到找到空閑單元。即d[i] = (d[i-1] + 1) mod m線性探查容易產生堆積的問題。因為若是出現了若干個同意詞會堆積在第一個同義詞的地址單元附近。
2.平方探查法
發生沖突時,用平方探查法的探查序列為d[i] + 12,d[i] + 22, d[i] + 32...直到找到空閑單元。平方探查法是一種比較好的處理沖突的方法,可以避免堆積問題。它的缺點是不能探查到哈希表上的所有單元,不過至少也能探查到一半單元。etc
2.鏈地址法(拉鏈法)
鏈地址法的思想是將哈希表的每個單元作為鏈表的頭結點,所有哈希地址為i的元素構成一個同義詞鏈表。即發生沖突時就把該關鍵字鏈在以該單元為頭結點的鏈表的尾部。(圖得靠自己腦補)鏈地址法適用于經常插入刪除的情況,其中查找、插入和刪除操作主要在同義詞鏈中進行。
3.再哈希法
在構造函數時同時構造多個不同的哈希函數。當哈希地址發生沖突用其他的函數計算另一個哈希函數地址,直到沖突不再產生為止。這種方法不易產生聚集,但增加了計算時間。
4.建立公共溢出區
建立公共溢出區的基本思想是將哈希表分為基本表和溢出表2部分,發生沖突的元素都放入溢出表中。