垃圾收集和内存分配策略
一、如何定义垃圾
1. 引用计数法(Reference Counting
)
给对象添加一个引用计数器,每当有一个地方引用它时,计数器值就加1;当引用失效时,计数器值就减1;任何时刻计数器为0的对象就是不可能再被使用的。
优点:实现简单,判定效率高
缺点:很难解决对象之间相互循环引用的问题
例如下面代码所示,reference1
和reference2
相互循环引用,虽然外部已经没有对象引用它们,但是如果使用引用计数法
,那么reference1
和reference2
的计数器值各为1,就没办法通知GC回收。
public class Reference {
public Reference reference;
public static void main(String[] args) {
Reference reference1 = new Reference();
Reference reference2 = new Reference();
// 互相循环引用
reference1.reference = reference2;
reference2.reference = reference1;
reference1 = null;
reference2 = null;
}
}
2. 可达性分析算法(Reachability Analysis)
主流实现中,都是通过可达性分析
来判定对象是否存活的。基本思路为,通过一系列GC Roots
的对象作为起始点,从这些节点开始向下搜索,搜索所走过的路径被称为引用链(Reference Chain)
,当一个对象到GC Roots
没有任何引用链相连时(不可达
),则证明此对象不可用。如下图所示,object5
、object6
和object7
虽然互相有关联,但是他们到GC Roots
是不可达的。所以根据可达性分析算法
,它们将被判定为是可回收的对象。
JVM中的GC Roots对象
- 虚拟机栈(栈帧中的本地变量表)中引用的对象
- 方法区中类静态属性引用的对象
- 方法区中常量引用的对象
- 本地方法栈中JNI(即一般说的Native方法)引用的对象
二、垃圾收集算法
1. 标记-清除算法(Mark-Sweep
)
算法分为两个阶段,标记
和清除
。
标记:首先标记出所有需要回收的对象,下图黑色区域就是被标记为可回收的对象。
清除:在标记完成后统一回收所有被标记的对象。
回收前和收回后的内存分布如下图所示:
image缺点
- 效率问题:标记和清除两个过程效率都不高
- 空间问题:标记清除之后会产生大量不连续的内存碎片
2. 复制算法(Copying)
为了解决Mark-Sweep
算法的两个缺陷,引入了复制
算法。它将可用内存按容量划分为大小相等的两块,每次只使用其中的一块。当这一块的内存用完了,就将还存活着的对象复制到另外一块上面,然后再把已使用的内存空间一次清理掉,这样一来就不容易出现内存碎片的问题。算法的过程如下图所示:
优点:实现简单,运行高效
缺点:内存缩小为原来的一半;对象存活率较高时需要进行较多的复制操作,效率变低
3. 标记-整理算法(Mark-Compact
)
根据老年代的特点(对象存活率高),有人提出标记-整理
算法。该算法标记阶段和Mark-Sweep
一样,但是在完成标记之后,它不是直接清理可回收对象,而是将存活对象都向一端移动,然后清理掉端边界以外的内存。过程如下图所示:
4. 分代收集算法(Generational Collection
)
当前商业虚拟机的垃圾收集都采用"分代收集"算法,并没有新的思想,只是根据对象存活周期的不同将内存划分为几块。一般是把Java堆分为新生代和老年代,根据各个年代的特点采用最恰当的收集算法。
新生代
在新生代中,每次垃圾收集都有大量对象死去,只有少量存活,那就选用复制算法,只需要付出少量存活对象的复制成本就可以完成收集。
老年代
而老年代中因为对象存活率高、没有额外空间对它进行分配担保,就必须使用标记-清理或者标记-整理算法。
三、JVM中的分代收集算法
image新生代(复制算法)
IBM公司的专门研究表现,新生代中 98% 是“朝生暮死”的,所以并不需要按照1:1
的比例来划分内存空间。
新生代划分为三个部分:Eden空间和两个Survisor空间
新生代有几个重要的点:
- 大多数新创建的对象都被分配在
Eden
空间。 - 当
Eden
空间被对象充满,就会触发一次Minor GC
,所有还存活的对象都会被复制到其中一个Survisor
空间中。 -
Minor GC
触发时,也会将一个Survisor
中还存活的对象复制到另一个Survisor
空间中。也就是说,每次都有一个Survisor
空间是空的。 - 如果新生代的对象经过多轮GC之后依然存活,那么就会把它们移到老年代。
HotSpot
虚拟机默认Eden
和Survisor
的大小比例是8:1,也就是每次新生代中可用内存空间为整个新生代容量的90%(80% + 10%),只有10%的内存会被浪费。当Survisor
空间不够用的时候,需要依赖其它内存(老年代)进行内存分配担保(Handle Promotion
)
老年代(标记-清理/标记-整理)
新生代
中的对象在多轮Minor GC
后依然存活,就会被移到老年代
。老年代
的内存回收被称为Major GC
或者Full GC
,它通常需要花费更多时间。
老年代
里一般都是存活时间久的对象,所以每次GC时,只有少部分对象被回收,所以使用的是标记-清理或者标记-整理算法。
四、内存分配
Java技术体系中的自动内存管理可以归结为自动化的解决了两个问题:给对象分配内存和回收分配给对象的内存。以上就是回收内存,以下即为给对象分配内存。
1. 对象优先在Eden分配
大多数情况下,对象在新生代的Eden区中分配,当Eden区没有足够空间进行分配时,虚拟机将发起一次Minor GC。
Minor GC和Major GC/Full GC:
- 新生代GC(Minor GC):指发生在新生代的垃圾回收动作,因为Java对象大多都具备朝生夕灭的特性,所以Monir GC非常频繁,一般回收速度也比较快。
- 老年代GC(Major GC/Full GC):指发生在老年代的GC,出现了Major GC,经常会伴随至少一次的Minor GC(但并非绝对的,在Parallel Scavenge)收集器的收集策略里就有直接进行Major GC的策略选择过程。Major GC的速度一般比Major GC慢10倍以上。
2. 大对象直接进入老年代
大对象是指,需要大量连续内存空间的Java对象,最典型的就是那种很长的字符串以及数组。大对象对虚拟机的内存分配来说是一个坏消息(特别是一群“朝生夕灭”的大对象),经常出现大对象容易导致内存还有不少空间时就提前触发垃圾回收来获取足够连续的空间来存储它们。==> 多大的对象?
大对象直接在老年代进行分配的目的是避免在Eden区和两个Survivor区之间发生大量的内存复制。
3. 长期存活的对象将进入老年代
既然虚拟机采用了分代收集的思想来管理内存,那么内存回收时就必须能识别哪些对象应放在新生代,哪些对象应放在老年代。
虚拟机给每个对象定义了一个对象年龄计数器。如果对象在Eden出生并经过第一次Minor GC之后仍然存在,并且能被Survivor容纳的话,将被移到Survivor空间中,并且对象年龄设为1,。对象在Survivor区中每熬过一次Minor GC,年龄就增加1,当它的年龄增加到一定程度(默认15,可以通过 -XX:MaxTenuringThreshold
设置),将会晋升到老年代中。
4. 动态对象年龄判断
为了能更好的适应不同程序的内存情况,虚拟机不是永远的要求对象的年龄必须达到阈值才能晋升老年代;如果在Survivor区中的相同年龄所有对象大小的总和大于Survivor空间的一半,年龄大于或者等于该年龄的对象就可以直接进入老年代,无须达到阈值
5. 空间分配担保
新生代使用复制收集算法,但为了内存利用率,只使用其他一个Survivor区进行轮换备份,因此当出现大量对象在Minor GC之后仍然存活的情况(最极端的情况就是内存回收后新生代所有对象都存活),就需要老年代进行内存担保,把Survivor无法容纳的对象直接进入老年代,但是前提是老年代本身还有容纳这些对象的剩余空间;不过一共有多少对象会活下来在实际完成内存回收前是无法知道的,所以只好取之前晋升到老年代对象容量的平均大小经过经验值,与老年代剩余空间进行比较,决定是否进行Major GC让老年代腾出更多空间。
只要老年代的连续空间大于新生代对象总大小或者历次晋升的平均大小就会进行Minor GC,否则将进行Full GC。