一个有意思的CMS问题
简书 占小狼 转载请注明原创出处,谢谢!
大家新年好,愿你们在新的一年顺利晋升、工资涨涨涨...
之前无意间碰到一个有趣的CMS GC问题,问题很简单,现象很粗暴。
代码
/**
* -Xmx20m -Xms20m -Xmn10m -XX:+UseParNewGC -XX:+UseConcMarkSweepGC
* -XX:+UseCMSInitiatingOccupancyOnly -XX:CMSInitiatingOccupancyFraction=75
* -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+PrintHeapAtGC
*/
public class JVM {
private static final int _1MB = 1024 * 1024;
public static void main(String[] args) throws Exception {
byte[] b1 = new byte[2 * _1MB];
byte[] b2 = new byte[2 * _1MB];
byte[] b3 = new byte[2 * _1MB];
byte[] b4 = new byte[4 * _1MB];
System.in.read();
}
}
现象
程序运行之后,执行jstat -gcutils pid 1000
命令,结果如下:
![](https://img.haomeiwen.com/i2184951/5524653c2aee40b8.png)
在JVM参数中已经设置了-XX:+UseCMSInitiatingOccupancyOnly
和 -XX:CMSInitiatingOccupancyFraction=75
只有在老年代的使用率达到75%时才会触发CMS回收,可目前的现象是老年代使用率才60%,就开始不停的GC、不停的GC、不停的GC,GC日志如下:
![](https://img.haomeiwen.com/i2184951/695a7870621d62e5.png)
看这架势,应该是在不停的发生CMS GC了。
![](https://img.haomeiwen.com/i2184951/863de08b8604ff31.png)
原因查找
既然一直在触发CMS,那问题根本因为在触发CMS的条件中,之前以为只要设置了-XX:+UseCMSInitiatingOccupancyOnly
参数,只有在老年代的使用率达到阈值时才会触发。
翻了代码之后才发现,问题没这么简单,触发CMS的判断逻辑位于CMSCollector::shouldConcurrentCollect()
方法中,实现如下:
![](https://img.haomeiwen.com/i2184951/ff516efaf6aa214e.png)
在设置了-XX:+UseCMSInitiatingOccupancyOnly
参数的前提下,有三种情况会触发:
1、老年代当前使用率是否达到阈值CMSInitiatingOccupancyFraction
;
2、判断当前新生代的对象是否能够全部顺利的晋升到老年代,如果不能,就提早触发一次老年代的收集,这是本案例中不停CMS的根本原因,incremental_collection_will_fail(true)
实现如下:
![](https://img.haomeiwen.com/i2184951/8c4f06b4efb160fb.png)
其中get_gen(0)
指向当前年轻代的堆,因为设置了-XX:+UseParNewGC
,则年轻代的堆实现是ParNewGeneration
,该类继承了DefNewGeneration
,方法collection_attempt_is_safe()
位于DefNewGeneration
类中,实现如下:
![](https://img.haomeiwen.com/i2184951/513f013cddd80174.png)
前面2个条件先忽略,看最后一个条件,_next_gen
指向老年代的堆,其中promotion_attempt_is_safe()
实现如下:
![](https://img.haomeiwen.com/i2184951/999573fe5f9469b7.png)
传入的参数max_promotion_in_bytes
,由年轻代的used
方法计算得到,eden区的使用量 + from区的使用量
size_t DefNewGeneration::used() const {
return eden()->used()
+ from()->used(); // to() is only used during scavenge
}
其中promotion_attempt_is_safe()
方法中的变量
1、available
是老年代的可用内存大小
2、av_promo
每次YGC时晋升到老年代对象大小的平均值
当老年代的可用内存大于av_promo
,或者大于max_promotion_in_bytes
时,说明下次的YGC是安全的,否则返回fasle,提早进行一次CMS操作,释放老年代的空间,以容纳下次YGC晋升上来的对象。
到这里,本文中的例子不断的进行CMS GC的疑惑应该可以解释清楚了。
别忘了,还有第三种情况:
if (CMSClassUnloadingEnabled && _permGen->should_concurrent_collect()) {
bool res = update_should_unload_classes();
if (res) {
if (Verbose && PrintGCDetails) {
gclog_or_tty->print_cr("CMS perm gen initiated");
}
return true;
}
}
前提是设置了-XX:+CMSClassUnloadingEnabled
,而且_permGen永久带的内存使用率达到了阈值CMSInitiatingPermOccupancyFraction
,默认值是92。
即使满足上面2个条件,还需要一层判断update_should_unload_classes()
![](https://img.haomeiwen.com/i2184951/30dc5a3490e34446.png)
如果一开始永久代大小没有设置、或者设置的很小,很有可能一开始就执行CMS,这让很多同学表示怀疑,什么都没做,就给我来一次CMS的日志。