對象存活算法
Java 堆中存放著幾乎所有的對象實例,垃圾收集器在對堆進行回收前,需要確定對象是否存活。
引用計數算法
給對象添加一個引用計數器,每當一個地方引用它時,計數器的值加 1;引用失效時減 1。
主流 JVM 沒有選用此種算法管理內存,主要原因是它難以解決對象間循環引用的問題。
可達性分析算法
可達性分析算法是 JVM 主流實現中采用的算法。基本思路是通過一系列 GC Roots
對象為起點向下搜索,搜索所走過的路徑稱為 引用鏈
。當一個對象到 GC Roots 沒有任何引用鏈相連時,會被判定為可回收對象。
GC Roots 對象包括以下幾種:虛擬機棧中引用的對象;方法區中類靜態屬性引用的對象;方法區中常量引用的對象;本地方法棧中引用的對象。
引用類型
JDK 1.2 后,Java 中的引用分為強引用、軟引用、弱引用和虛引用 4 種。
強引用在代碼中普遍存在,如 Object o = new Object()
,只要強引用在,垃圾回收器就永遠不會回收被引用的對象。
軟引用用來描述有用但非必須的對象,在發生內存溢出異常之前被回收。
弱引用和軟引用類似,強度更弱,只能生存到下一次垃圾收集之前。
虛引用不會對生存時間構成影響,也無法通過虛引用取得實例,設置虛引用的唯一目的就是能在這個對象被回收時受到系統通知。
回收方法區
方法區的回收主要包括廢棄常量和無用的類。
廢棄常量和堆中的對象類似,當發生垃圾回收時,如果常量池中的常量不存在任何引用,必要情況下回被清理。
判斷一個類無用的條件很苛刻,需要所有實例都已經被回收、加載該類的 ClassLoader 已經被回收,并且該類對應的 java.lang.Class 對象沒有在任何地方被引用,無法通過反射訪問該類的方法,滿足以上條件的無用類才能被回收。
垃圾收集算法
標記 — 清除算法
先標記出所有需要回收的對象,然后統一回收。兩個階段效率都不高,另外標記清除后會產生大量不連續的內存碎片。
復制算法
將可用內存分為大小相等兩塊,每次使用其中一塊。內存用完時將還存活的對象復制到另一塊上,再把已使用的空間一次清理掉。
新生代中大多對象朝生夕死,不需要按照 1 : 1 分配內存空間,而是分為一塊較大的 Eden 空間和兩塊較小的 Survivor 空間,每次使用 Eden 空間和其中一塊 Survivor 空間。回收時將 Eden 和 Survivor 中存活的對象一次性復制到另一塊 Survivor 空間,再清理掉之前使用的兩塊內存空間。HotSpot 默認 Eden 和 Survivor 的大小比例為 8 : 1,可用空間為 90%。當 Survivor 內存不夠時需依賴老年代進行分配擔保。
標記 — 整理算法
標記整理算法更適合于老年代,標記之后不直接對可回收對象進行清理,而是讓存活對象都向一段移動,然后清理掉邊界以外的內存。
分代收集
當前商業虛擬機都采用分代收集,根據對象存活周期把內存劃分為幾塊。一般把 Java 堆分為新生代和老年代,新生代采用復制算法,老年代使用標記清理算法或標記整理算法。
HotSpot 算法實現
HotSpot 實現上述算法時,須對算法的執行效率嚴格考量,才能保證虛擬機高效運行。
枚舉根節點
主流虛擬機都使用 準確式 GC
,即知道內存中數據的具體類型,所以不需要一個不漏地檢查所有執行上下文和全局的引用位置。JVM 有辦法直接得知哪些地方存放著對象引用,HotSpot 使用一組稱為 OopMap
的數據類型達到這個目的。
安全點
導致 OopMap 變化的指令很多,如果針對每次變化采取措施 GC 的成本會變得很高。實際上,HotSpot 沒有為每條指令生成 OopMap,只在特定位置記錄這些信息,這些位置稱為 安全點
,程序只有在安全點才能暫停。安全點既不能太少又不能太多,基本選在方法調用、循環跳轉等具有讓程序長時間執行特性的位置。
讓程序在安全點暫停主要有 搶先式中斷 和 主動式中斷 兩種方案。搶先式先把所有線程中斷,再讓不處于安全點的線程繼續執行到安全點。主動式則是在安全點的位置有是否需要中斷的標志,線程執行到安全點時依據標志中斷掛起。
安全區域
安全區域指在一段代碼片段內不會引起引用變化的區域,如線程處于 Sleep 狀態揮著 Blocked 狀態,線程無法響應 JVM 的中斷請求。
程序進入安全區域時,先標記自己已經進入安全區域,如在這個時候發起 GC,不需要處理標記進去安全區域的線程。在線程離開安全區域時,需要檢查是否完成枚舉根節點或整個 GC 過程,已完成則繼續執行,否則需要等到接收可以安全離開的信號為止。
垃圾收集器
垃圾收集器是內存回收的具體實現,目前沒有最好的收集器,只有最合適的收集器,所以 JVM 實現了幾個不同的收集器。
Serial / Serial Old 收集器
單線程收集器,只使用一個 CPU 和一個收集線程,垃圾回收時暫停其他所有的工作線程,直到收集結束。
與其他收集器的單線程比簡單高效,對于運行在 Client 模式下的虛擬機是一個好選擇。
新生代采用復制算法,老年代采用標記整理算法。
ParNew 收集器
Serial 的多線程版本,能與 CMS 收集器配置工作,所以是許多運行在 Server 模式下的首選新生代收集器。
在垃圾收集器的上下文中,先明確兩個概念:
并行:多條垃圾線程并行工作,用戶線程仍然處于等待狀態
并發:用戶線程和垃圾回收線程同時執行(不一定并行,可能會交替執行)
Parallel Scavenge / Parallel Old 收集器
使用復制算法的新生代多線程收集器,特點是更關注吞吐量,即運行用戶代碼時間 / (運行用戶代碼時間 + 垃圾收集時間)。
Parallel Scavenge 收集有一個參數開關 -XX:+UseAdaptiveSizePolicy,打開后就不需要手動設置新生代大小、Eden 與 Survivor 區的比例等細節參數,JVM 會根據當前系統運行情況動態調整,以提供最合適的停頓時間或最大吞吐量。
CMS 收集器
Concurrent Mark Sweep 以獲取最短收回停頓時間為目標,使用標記清除算法。收集過程分為 4 部:初始標記、并發標記、重新標記和并發清理。初始標記和重新標記耗時很少,并發標記和并發清理兩部耗時較長,但都可以與用戶線程一起并發執行。
CMS 收集器有 3 個明顯缺點:1.對 CPU 資源敏感,并發階段占用一部分 CPU 資源導致應用程序變慢。2.無法收集浮動垃圾,即并發清理階段由于程序還在運行產生的垃圾,可能導致另一次 Full GC。3.標記清除算法導致收集結束后存在大量空間碎片,可配置 Full GC 執行多少次時伴隨一次空間壓縮。
G1 收集器
Garbge-First 面向服務端應用,具有并發并行、分代收集、空間整合、可預測停頓等特點。
使用 G1 時,Java 堆的內存分為多個大小相等的獨立區域,雖然保留新生代和老年代的概念,但不再是屋里隔離。G1 跟蹤各個 Region 里垃圾堆積的價值,在后臺維護一個優先列表,優先回收價值最大的 Region。
G1 的運作大致分為初始標記、并發標記、最終標記和篩選回收。
內存分配與回收策略
多數情況下,對象在新生代 Eden 區分配。Eden 沒有足夠的空間時進行一次 Minor GC。當存活對象無法放入 Survivor 區時,通過分配擔保提前轉移到老年代。
需要大量連續內存空間的大對象會直接進入老年代,如很長的字符串或數組。經常出現大對象容易導致內存還有不少空間時就今天出發 GC。
長期存活的對象進入老年代。每經過一次 Minor GC,對象中的年齡計數器會加 1,加到一定程度(默認 15)時晉升到老年代。如果 Survivor 空間中相同年齡的所有對象帶下總和大于 Survivor 空間的一半,年齡大于或等于該年齡的對象可以直接進入老年代。
在發生 Minor GC 之前,JVM 會先檢查老年代中最大可用連續空間是否大于新生代所有對象總和,如果大于,Minor GC 可以確定是安全的。否則要根據是否允許擔保失敗判斷是否進行 Full GC。允許擔保失敗時,會根據之前晉升老年代的平均大小作為經驗來判定是否進行嘗試。