HashMap實現原理簡析(哈希表)

什么是HashMap

HashMap在應用層的使用非常廣泛,用來儲存鍵值對。它使用哈希函數來做索引因此性能較高。同TreeMap相比,HashMap的插入、刪除、查詢時間復雜度在理想情況下達到O(1)。JDK1.8后,HashMap采用了TreeMap優化鏈表,因此極端情況下插入、刪除、查詢的效率也比線性好,達到O(lgN)。而JDK1.8以前,HashMap使用鏈表處理哈希碰撞,所以極端情況時間復雜度為O(N)。

什么情況用HashMap

當開發者想要儲存有關聯的鍵值對時,在不考慮并發安全性和有序性的前提下,應該使用HashMap。

例如:

    public static class Node implements Comparable<Node>{
        
        public Node(int v){
            this.value = v;
        }
        
        public int value;

        @Override
        public int compareTo(Node o) {
            return this.value-o.value;
        }
    }

    public static void main(String[] args) {
        Map<Node,Object> map=new HashMap<>();
        map.put(new Node(6), new Object());
        map.put(new Node(3), new Object());
        map.put(new Node(5), new Object());
        map.put(new Node(4), new Object());
        map.put(new Node(1), new Object());
        map.put(new Node(11), new Object());
        Iterator<Node> iterator = map.keySet().iterator();
        while(iterator.hasNext()){
            Node n = iterator.next();
            System.out.println(n.value+" , "+map.get(n));
        }
        
    }

輸出結果:

5 , java.lang.Object@33909752
11 , java.lang.Object@55f96302
1 , java.lang.Object@3d4eac69
6 , java.lang.Object@42a57993
3 , java.lang.Object@75b84c92
4 , java.lang.Object@6bc7c054

HashMap運行插入的鍵是null,如果鍵是null,其哈希值為0,所以null型鍵值對會插入到數組的首個位置。

HashMap內部實現

基于JDK1.8分析


HashMap結構圖.png

HashMap內部依賴數組、鏈表、紅黑樹實現。

數組/鏈表節點

    static class Node<K,V> implements Map.Entry<K,V> {
        final int hash;
        final K key;
        V value;
        Node<K,V> next;
    }

HashMap將插入的鍵值對封裝在Node對象中,每個Node對象含有hash值,鍵對象key,值對象value。當哈希值沖突后,新增的Node會被next變量指向,組成鏈表。當該鏈表的長度超過8,將其轉換為紅黑樹節點。

紅黑樹節點

static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
        TreeNode<K,V> parent;  // red-black tree links
        TreeNode<K,V> left;
        TreeNode<K,V> right;
        TreeNode<K,V> prev;    // needed to unlink next upon deletion
        boolean red;
}

容量及擴容

HashMap構造方法并沒有對內部的table數組初始化,可能是為了防止未使用的情況下浪費內存。當初次執行插入,如果數組為空就會初次調用擴容方法resize()創建table數組。

 final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;  //初次調用擴容函數
        ...
        if (++size > threshold)
            resize();
}

final Node<K,V>[] resize() {
        Node<K,V>[] oldTab = table;
        int oldCap = (oldTab == null) ? 0 : oldTab.length;  //初始長度為0
        int oldThr = threshold;  //如果HashMap構造方指定了初始長度和加載因子,threshold會被計算出來
        int newCap, newThr = 0;
        if (oldCap > 0) {
            //第二次及以后的擴容走這里
            if (oldCap >= MAXIMUM_CAPACITY) {
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                newThr = oldThr << 1; // double threshold
        }
        else if (oldThr > 0) // initial capacity was placed in threshold
            newCap = oldThr;  //初始化長度和加載因子走這里
        else {               // zero initial threshold signifies using defaults  //初始默認執行這個分支
            newCap = DEFAULT_INITIAL_CAPACITY; //默認長度
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY); //默認臨界值
        }
}

如果未指定HashMap的構造方法參數,數組初始長度為DEFAULT_INITIAL_CAPACITY(16),加載因子為DEFAULT_LOAD_FACTOR(0.75)。開發者也可以通過HashMap的構造方法指定初始長度和加載因子。

HashMap的容量超過當前數組長度*加載因子,就會執行resize()算法,該算法將創建一個新的數組,長度是原來的兩倍(舊的長度左移一位),并且將原來的HashMap數組的節點轉換到新的數組。同時threshold變量也會是原來的兩倍,該變量用來判斷HashMap在插入后是否應該擴容。

** 疑問:為什么擴容要將原長度左移一位呢? 因為性能問題?**

插入算法

取哈希值

    public V put(K key, V value) {
        return putVal(hash(key), key, value, false, true);
    }

    static final int hash(Object key) {
        int h;
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }

首先調用Object的hashCode()方法算出key的哈希值,該方法在native層實現。接著將key的哈希值(int型32位)無符號右移16位,即取它的高16位返回,右移后高16位變成0,原高16位移動到低16位。

取數組中的位置

再來看具體的插入putVal方法:

 Node<K,V>[] tab; Node<K,V> p; int n, i;
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);

這里n是table數組的長度,hash是key的哈希值經過高16位轉低16位的int值。

這里計算節點在table數組的位置的算法是:i = (n - 1) & hash,將數組長度減1后與運算hash。這個算法就很巧妙了,記得上面說過數組的長度一定是2的冪,即使初始長度非2的冪也會強制轉換為2的冪:

this.threshold = tableSizeFor(initialCapacity);

    static final int tableSizeFor(int cap) {
        int n = cap - 1;
        n |= n >>> 1;
        n |= n >>> 2;
        n |= n >>> 4;
        n |= n >>> 8;
        n |= n >>> 16;
        return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
    }
  

假設傳入cap=5,最后輸出長度為8。加入傳入cap=9,最后輸出長度為16。所以n-1的二進制形式分別是111,1111。

** 用hash與(n-1)做位置運算相比%運算更高效,這可能就是HashMap數組長度為2的冪的原因吧。并且這種巧妙的設計也能保證位置i不會超過數組長度。**

非沖突的情況

 if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);

    Node<K,V> newNode(int hash, K key, V value, Node<K,V> next) {
        return new Node<>(hash, key, value, next);
    }

根據key算出hash值后,再通過** “(n-1)&hash” **算出鍵值對在數組中對應的位置,如果table[i]為空直接將鍵值對封裝到Node插入table[i]。

沖突的情況

首個位置的鍵與新插入的鍵相等

if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;

當table[i]非空,且key==table[i].key 或者 key非空,key.equals(table[i],key)。說明table[i]上的節點的鍵key等同于新插入的鍵,這種情況下令新插入的節點為table[i]。下面會將table[i]中的value替換為新插入的value。

首個位置是紅黑樹的節點

else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);

上面說到,如果哈希表發生了哈希碰撞,沖突的節點會插入到以table[i]為鏈表頭的尾部。如果該鏈表長度超過8,會轉換成紅黑樹。因此table[i]既可能是鏈表頭,也可能是紅黑樹的根部。

如果tablei是紅黑樹的節點,說明該hash值沖突的節點沖過了8個,將新的鍵值對插入紅黑樹。

首個位置是鏈表節點

                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) { @1
                        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st 
                            treeifyBin(tab, hash); @3
                        break;
                    }
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        @2
                        break;
                    p = e;
                }

@1 如果遍歷到鏈表的末尾,說明遍歷的過程中未找到key相等的節點,將鍵值對插入末尾
@2 如果遍歷鏈表的過程中,存在哈希值一致,引用相等或equals相等的節點,終止遍歷,新鍵值對的值會替換這個節點上原來的值。
@3 在鏈表末尾插入新節點后,鏈表的長度達到8,此時方法treeifyBin(tab, hash)將鏈表轉換為紅黑樹

替換原節點中的Value

            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }

對于已經在鏈表或紅黑樹存在的節點,只會替換原Value就返回。

插入后的擴容

        ++modCount;
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;

在前面已經描述過,當HashMap的size超過了 長度*負載因子,就會執行resize()方法擴容,將原table數組長度擴大兩倍。

        if (oldTab != null) {
            for (int j = 0; j < oldCap; ++j) {
                Node<K,V> e;
                if ((e = oldTab[j]) != null) {
                    oldTab[j] = null;
                    if (e.next == null)
                        newTab[e.hash & (newCap - 1)] = e; @1
                    else if (e instanceof TreeNode) @2
                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                    else { // preserve order @3
                        Node<K,V> loHead = null, loTail = null;
                        Node<K,V> hiHead = null, hiTail = null;
                        Node<K,V> next;
                        do {
                            next = e.next;
                            if ((e.hash & oldCap) == 0) {
                                if (loTail == null)
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            }
                            else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                        if (loTail != null) {
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
        }

這段代碼將原數組中的元素插入到新數組中,具體表現為:
@1 將非鏈表非紅黑樹的節點計算新位置后重新插入新數組。
@2 將原紅黑樹插入新的數組
@3 將原鏈表插入新的數組

這里要注意的是,擴容后(n-1)的值在高一位多了1,因此原來的鏈表和紅黑樹的節點的位置可能出現高一位多了1,所以不能簡單的直接將頭節點移動到新數組,需要重新計算位置。而哈希值不需要重新計算,所以這可能就是** (n-1)&hash **這個算法的好處吧。

取出算法

    public V get(Object key) {
        Node<K,V> e;
        return (e = getNode(hash(key), key)) == null ? null : e.value;
    }

    final Node<K,V> getNode(int hash, Object key) {
        Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
        if ((tab = table) != null && (n = tab.length) > 0 &&
            (first = tab[(n - 1) & hash]) != null) {
            if (first.hash == hash && // always check first node
                ((k = first.key) == key || (key != null && key.equals(k))))
                return first;
            if ((e = first.next) != null) {
                if (first instanceof TreeNode)
                    return ((TreeNode<K,V>)first).getTreeNode(hash, key);
                do {
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        return e;
                } while ((e = e.next) != null);
            }
        }
        return null;
    }

取出算法其實就是插入算法的逆向過程,你可能直接從table[i]中取走鍵值對,也可能是紅黑樹或者鏈表中的一個節點。

要注意的是只滿足equlas相等并不能有效取出元素,還必須滿足哈希值相等,所以要考慮重寫key的hashCode()方法。

HashMap小結

  • JDK1.8以后用紅黑樹對HashMap的鏈表做了優化,因此使得HashMap的最差性能從O(n)提升到O(lgn)。
  • 擴容是一件很耗費性能和內存的事情,除了要創建新數組,還要將原數組中的鏈表或紅黑樹重新計算位置(不重新計算哈希值),然后插入新的數組。
  • 如果HashMap創建時就知道對面的是多大容量的數據,可以指定初始容量和負載因子。
  • HashMap和TreeMap都是非線程安全的,建議使用ConcurrentHashMap處理并發安全問題。Hashtable的并非像ConcurrentHashMap對數組的每個位置加鎖,而是對操作加鎖,性能較差。另外Collections.synchronizedMap(map)這種方法也是在Map對象的方法上裝飾了synchronized關鍵字,因此同Hashtable性能較差。
  • LinkedHashMap繼承于HashMap,替HashMap完成了輸入順序的記錄功能,所以要想實現像輸出同輸入順序一致,應該使用LinkedHashMap。

參考

Java 8系列之重新認識HashMap

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容