GC一探究竟(二)
1.前言
在上一篇博客中介紹了關于GC的一些對象回收判斷以及簡單介紹了方法區的回收,但你們有沒有想過,內存的垃圾是如何收集的。因此,本文將講述幾種常見的垃圾收集算法。
2. 標記-清除算法
2.1 原理
該算法分為標記,和清除兩個過程,其中,標記過程便是使用可達性分析算法,從GC Roots開始遍歷,在可達對象中的對象頭進行標記。而在清除過程,在堆內存中從頭到尾進行線性遍歷,清除不可達對象。同時,還需要將存活對象的標記清除掉,以便為下一次GC操作做好準備 。
2.2 優點
對于存活對象多的情況下,可以減少對象的移動(相對于下面的復制算法),提高效率。
2.3 缺點
- 標記和清除過程,是兩個遍歷的過程,兩次遍歷,效率不高
- 很明顯,當我們清除之后,會產生大量的不連續內存,存在過多的不連續內存,會導致在給大對象分配的內存空間的時候,會因為內存不足而頻繁的進行GC操作,降低程序效率
3. 復制算法
3.1 原理
復制算法的原理便是把一整塊的空間分為兩塊,每次只使用一塊,當一塊使用完之后,可將不回收的對象復制到另一塊上,然后將舊的一塊的內存全部清空。
具體:當有效內存空間耗盡時,JVM將暫停程序運行,開啟復制算法GC線程。接下來GC線程會將活動區間內的存活對象,全部復制到空閑區間,且嚴格按照內存地址依次排列,與此同時,GC線程將更新存活對象的內存引用地址指向新的內存地址。
3.2 優點
- 對比標記-清除算法,采用復制算法,明顯可以減少大量的不連續內存空間。
- 對比標記-清除算法,可提高效率,不用兩次遍歷,只需一次遍歷,復制完之后,便可以清除舊空間內存。
3.3 缺點
- 很明顯,需要分出一半的空間進行復制用,會損失一半的內存,是典型的空間換時間的實現。
- 相對于一些存活對象很多的情況下,則需要復制的對象過多,將會降低效率,因此它適用于存活量少的區域回收內存。
3.4 應用舉例
堆中的新生代區(后面會講)中的98%的對象都是”朝生夕死“的,因此特別適合用復制算法回收,而且由于存貨量很少,不需要劃出一半的內存用做保留區。而是劃出一塊較大的Eden和兩塊較小的Survivor空間,在HotSpot中,Eden:Survivor=8:1。
當回收的時候,將Eden和Survivor中的存活對象復制到另一個Survivor中,然后回收掉它們的全部內存,之后那塊Survivor就作為保留區用。
但是,這樣算下來,堆中新生代的10%內存會被浪費,也即是用來存放每次回收存活對象的內存之后新生代的10%。我們無法保證每次回收都只有不多于10%的對象存活。當Survivor空間不夠用的時候,需要依賴其他內存(這里指老年代)進行分配擔保,也即不夠存放的那些對象將直接通過分配擔保機制進入老年代。(分配擔保,后面會講)
4. 標記-整理算法
4.1 原理
標記-整理算法分為標記和整理兩個階段,標記過程就是和標記-清除過程是一致的,而標記之后,后續的步驟并不是直接清理可回收對象,而是讓所有存活的對象都向一端移動,然后直接清除掉端邊界以外的內存。
4.2整理過程
由標記-整理算法可以很清楚的知道,標記-整理算法的整理過程的工作便是,移動存活對象和更改所有指向被移動對象的指針。
4.1.1 整理順序
- 任意順序:對象的移動方式和它們初始的對象排列和引用關系無關
- 線性順序:將具有關聯關系的對象排列在一起
- 滑動順序:整理之后的對象順序與原先的不變
現在大多數的垃圾收集算法都是按照任意順序或滑動順序去實現的。
4.1.2 雙指針算法
雙指針算法屬于任意順序的整理算法,適用于固定大小對象的區域。
1. 過程原理
需要訪問兩次堆內存
- 第一次:將內存尾部的可達對象移動到頭部的空閑區域
- 第二次:修改可達對象的引用,指向引用的新地址
2.第一次遍歷
原理:在內存區域的頭部有個free指針,尾部有個scan指針,free指針向后遍歷,直到找尋到第一個空閑區域(沒有標記為可達對象的區域),此時scan指針向前遍歷,直到找尋到第一個存活對象,將存活對象移動到free指針下的空閑區域,并且把移動的位置記錄在原先的位置上(用于第二次遍歷的時候,修改引用)。重復以上操作,直到free指針和scan指針重復。結束第一次遍歷。
3. 第二次遍歷
第二次的遍歷目的在于修改被移動的對象的引用,更新為移動之后的位置。因此需要從GC Roots開始進行遍歷,如果發現引用指向的地址指針是在第一次遍歷之后的指針后面的,則說明該對象已經被移動,則取出其儲存的新位置的指針,修改其引用,重復操作,直到遍歷結束。
4.1.3 Lisp 2 整理算法
Lisp2算法是屬于滑動順序的一種,應用更為廣泛,對比雙指針算法,它可以處理不同大小的對象。它的缺陷在于,需要每個對象頭部額外增加一個完整的域(forwardingAddress)來記錄轉發地址。
1. 過程原理
- 第一次遍歷將所有存活對象的 forwardingAddress 域指向最后要移動到的地址。
- 第二次遍歷將所有指向存活對象的引用都修改為相應對象的 forwardingAddress。
- 第三次遍歷將所有存活對象轉移到 forwardingAddress 中。
2. 第一次遍歷
- 設置兩個指針在內存區域的頭部,分別是free指針和scan指針,free指針指向的區域代表的是后面遍歷的第一個存活對象所存儲的地址,scan指針用于遍歷后面的存活對象。
- 如圖所示,scan指針向后移動,訪問到的第一個存活對象是B,因此,需要在B對象記錄的轉發地址是free指向的地址,即0。此時free需要將指針后移,而后移的距離便是B對象的內存大小,作為下個存活對象的轉發地址,接下來便是scan指針繼續向后遍歷,尋找存活對象。
- 繼續重復過程,直到遍歷到內存區域尾部。
3. 第二次遍歷
第二次遍歷是修改所有的存活對象的引用
- 修改GC Roots對象的引用,如,根對象1引用對象B,由于對象B的遷移地址是0,因此,根對象1中對對象B的引用就要改為其轉發地址
- 同理,修改其他根對象
- 通過scan指針遍歷堆內存,更新所有的可達對象對其引用對象的引用為其引用對象的遷移地址。比如說,對于可達對象B, 它引用了對象D,D的遷移地址是2,那么B直接將其對D對象的引用重新指向2這個位置。
- 第二次遍歷結束后的對象之間的引用關系。
4. 第三次遍歷
第三次遍歷則是根據可達對象的遷移地址去移動可達對象,比如說可達對象B,它的遷移地址是0,那么就將其移動到位置0,同時去除可達對象的標記,以便下次垃圾收集。
5. 分代收集算法
根據對象的存活周期的不同將內存劃分為幾塊。一般是把Java堆分為新生代和老年代,這樣就可以根據各個年代的特點采用最適當的收集算法。在新生代中,每次垃圾收集時都發現有大批對象死去,只有少量存活,那就選用復制算法,只需要付出少量存活對象的復制成本就可以完成收集。而老年代中因為對象存活率高、沒有額外空間對它進行分配擔保,就必須使用“標記-清理”或“標記-整理”算法來進行回收。
6.總結
- 前三個算法都是基于根搜索算法去判斷一個對象是否應該被回收,分代收集算法其實就是前三個算法的一個有機結合。
- 在GC線程開啟時, 或者說GC過程開始時候,都要暫停應用程序(stop the world)。
歡迎關注本人博客:https://allen-yu.com/