本文來源于:公眾號? 碼農翻身
https://mp.weixin.qq.com/s?__biz=MzAxOTc0NzExNg==&mid=2665514069&idx=1&sn=2996d864bbe596d0af763fba3d244fa7&chksm=80d67c16b7a1f500ec6a191eb4a0beac0e95dbd5a7bf8ee01f5ed2cb17960b9ab32c0b965949&mpshare=1&scene=23&srcid=1127qgofTUaAtmaJYNVud9p7#rd
HashMap是一個用于存儲Key-Value鍵值對的集合,每一個鍵值對也叫做Entry。這些個鍵值對(Entry)分散存儲在一個數組當中,這個數組就是HashMap的主干。
HashMap數組每一個元素的初始值都是Null。
對于HashMap,我們最常使用的是兩個方法:Get 和 Put。
1.Put方法的原理
調用Put方法的時候發生了什么呢?
比如調用 hashMap.put("apple", 0) ,插入一個Key為“apple"的元素。這時候我們需要利用一個哈希函數來確定Entry的插入位置(index):
index =? Hash(“apple”)
假定最后計算出的index是2,那么結果如下
但是,因為HashMap的長度是有限的,當插入的Entry越來越多時,再完美的Hash函數也難免會出現index沖突的情況。比如下面這樣:
這時候該怎么辦呢?我們可以利用鏈表來解決。
HashMap數組的每一個元素不止是一個Entry對象,也是一個鏈表的頭節點。每一個Entry對象通過Next指針指向它的下一個Entry節點。當新來的Entry映射到沖突的數組位置時,只需要插入到對應的鏈表即可:
需要注意的是,新來的Entry節點插入鏈表時,使用的是“頭插法”。至于為什么不插入鏈表尾部,后面會有解釋。
2.Get方法的原理
使用Get方法根據Key來查找Value的時候,發生了什么呢?
首先會把輸入的Key做一次Hash映射,得到對應的index:
index =? Hash(“apple”)
由于剛才所說的Hash沖突,同一個位置有可能匹配到多個Entry,這時候就需要順著對應鏈表的頭節點,一個一個向下來查找。假設我們要查找的Key是“apple”:
第一步,我們查看的是頭節點Entry6,Entry6的Key是banana,顯然不是我們要找的結果。
第二步,我們查看的是Next節點Entry1,Entry1的Key是apple,正是我們要找的結果。
之所以把Entry6放在頭節點,是因為HashMap的發明者認為,后插入的Entry被查找的可能性更大。
其他
1.HashMap的默認初始長度是16;并且每次自動擴展或者是手動初始化的時候長度必須是2的冪;
之所以選擇16是為了服務于從Key映射到index的Hash算法.
index =? HashCode(Key) &? (Length- 1)
下面我們以值為“book”的Key來演示整個過程:
1.計算book的hashcode,結果為十進制的3029737,二進制的101110001110101110 1001。
2.假定HashMap長度是默認的16,計算Length-1的結果為十進制的15,二進制的1111。
3.把以上兩個結果做與運算,101110001110101110 1001 &1111 = 1001,十進制是9,所以 index=9。
可以說,Hash算法最終得到的index結果,完全取決于Key的Hashcode值的最后幾位。
這樣的好處是什么?為什么一定要是16或者2的冪,加入是10會怎么樣?
這樣做,性能提高,若是10 ,那么重復上面的操作步驟,獲取到index結果1001,單獨看這個例子是沒有問題的;
但是換成了,HashCode: 1011100011101011101011,結果是1001
讓我們再換一個HashCode1011100011101011101111試試,還是1001
雖然HashCode的倒數第二第三位從0變成了1,但是運算的結果都是1001。也就是說,當HashMap長度為10的時候,有些index結果的出現幾率會更大,而有些index結果永遠不會出現(比如0111)!
這樣,顯然不符合Hash算法均勻分布的原則。
反觀長度16或者其他2的冪,Length-1的值是所有二進制位全為1,這種情況下,index的結果等同于HashCode后幾位的值。只要輸入的HashCode本身分布均勻,Hash算法的結果就是均勻的。