【Java】垃圾收集器(GC)
1 概述
在Java内存运行时的各个部分中,程序计数器,虚拟机栈、本地方法栈3个区域随线程而生,随线程而灭;栈中的栈帧随着方法的进入和退出而有条不紊地执行着出栈和入栈操作。每一个栈帧中分配多少内存基本上是在类结构确定下来时就已知的,因此这几个区域的内存分配和回收都具备确定性,在这几个区域内就不需要过多考虑回收的问题,因为方法结束或者线程结束时,内存自然就跟随着回收了。而Java堆和方法区则不一样,一个接口中的多个实现类需要的内存可能不一样,一个方法中的多个分支需要的内存也可能不一样,我们只有在程序处于运行期间时才能知道会创建哪些对象,这部分内存的分配和回收都是动态的,垃圾收集器所关注的是这部分内存。
结论:垃圾收集器主要收集的是Java堆和方法区
2 判断对象是否存活
判断对象是否存活,一般有两种方法
- 引用计数法
- 可达性分析
2.1 引用计数法
当一个对象A被其他对象B引用时,对象A引用+1,断开引用则-1,GC工作时,会检查所有对象中的引用计数,如果为0则代表要清除,>0则表示有其他对象引用不能清除。
优点:实现简单效率高
缺点:无法解决对象之间相互循环引用问题
这种方法Java中并没有被采用。
2.2 可达性分析
在主流的商用程序语言(Java、C#等)的主流实现中,都是通过可达性分析来判定对象是否存活的。这个算法的基本思想是:通过一系列的称为“GC Roots”的对象作为起始点,从这些节点开始向下搜索,搜索所走过的路径称为引用链,当一个对象到GC Roots没有任何引用链相连(用图论的话,就是从GC Roots到这个对象不可达)时,则证明此对象是不可用的。如图2.1所示,object5、object6和object7虽然是相互有关联的,但是它们到GC Roots是不可达的,所以它们将会被判定为是可回收的对象。
图2.1 可达性分析示例在Java语言中,可作为GC Roots的对象的包括以下几类
- 虚拟机栈(栈中的本地变量表)中引用的对象
- 方法区中类静态属性引用的对象。
- 方法区中常量引用的对象
- 本地方法栈中JNI(即一般说的Native方法)引用的对象。
即使是在可达性分析算法中不可达的对象,也并不是一定会被回收,真正被回收至少需要进行两次标记过程:如果对象进行可达性分析后发现该对象与GC Roots之间没有引用链,则会进行第一次标记然后进行一次筛选。筛选方法是该对象是否有必要执行finalize()方法。
- 如果该对象没有覆盖finalize()方法,或者虚拟机已经调用过finalize()方法,则表示该对象没有必要执行finalize()方法,此时对象会被直接回收。
- 如果该对象覆盖了finalize()方法,且对象未执行过finalize()方法,则将该对象放入F-Queue队列中,由一低优先级线程执行该队列中对象的finalize()方法。执行完毕后,GC会再次判断该对象是否可达,如果不可达则回收,否则,对象“复活”。
3 垃圾收集算法
垃圾收集算法主要包括以下四种
- 标记-清除算法
- 复制算法
- 标记-整理算法
- 分代收集算法
3.1 标记-清除算法
标记清除算法分为“标记”和“清除”两个阶段:首先标记所有需要被回收的对象,在标记完成后再进行统一回收所有被标记的对象。这种算法是最基础的算法,后续的算法都是基于这种思路并针对其不足改进的算法。这种算法的不足地方有:
- 效率,标记和清除两个过程的效率都不高
- 空间问题,标记-清除后会产生大量不连续的内存碎片,如果内存碎片过多,当后续程序需要分配一个比较大的内存空间时可能无法找到一块连续的且足够大的内存空间。
标记清除算法的执行过程如图3.1所示:
图3.1 标记-清除算法示意图
3.2 复制算法
为了解决效率问题提出了复制算法。复制算法的主要思想是:将可用内存按容量划分为大小相等的两块,每次只使用其中的一块,当其中一块内存用完了时,就将还存活的对象复制到另一块上面,然后再把已使用过的内存空间一次清理掉。
图3.2 复制算法示意图这种算法一般用来回收新生代,其也有着缺点与不足。
- 在对象存活率较高时,会进行较多的复制操作,降低了效率
- 如果对象存活过多,保留区域无法全部复制存活对象,则需要额外空间进行分配担保。
分配担保举例:
IBM公司的专门研究表明,新生代中的对象98%都是“朝生夕死”,所以并不需要按照1:1的比例来划分内存空间,而是将内存分为一块打的Eden空间和两块较小的Survivor空间,每次使用Eden和其中一块Survivor。当回收时,将Eden和Survivor中还存活的对象一次性复制到另外一块Survivor空间上,最后清理掉Eden和刚才用过的Survivor空间。HotSpot虚拟机默认Eden和Survivor的大小比例是8:1,也就是每次新生代中可用内存空间为整个新生代容量的90%(80%+10%),只有10%的内存会被“浪费”。当然,98%的对象可回收只是一般场景下的数据,我们没有办法保证每次回收都只有不多于10%的对象存活,当Survivor空间不够用时,需要依赖其它内存(这里指老年代)进行分配担保。
3.3 标记-整理算法
根据老年代的特点,人们提出了标记-整理算法。该算法是将还存活的对象向一边进行移动,然后清理掉边界以外的内存。
图3.3 标记-整理算法示意图3.4 分代收集算法
该算法是根据对象存活周期的不同将内存划分为几块。一般是把Java堆划分为新生代和老年代,这样就可以根据各个年代的特点采用最适当的收集算法。在新生代中,每次垃圾收集时都会发现大批对象死去,只有少量存活,那就选用复制算法,只需要付出少量存活对象的复制成本就可以完成收集。而老年代中因为对象存活率高、没有额外空间对其进行分配担保,就必须使用标记-清理或者标记-整理算法进行回收。