jstack及dump文件分析
jstack命令的用法为jstack pid
jstack在jdk/bin的目录下
在实际运行中,建议产生3次以上的dump文件,每次间隔10s左右,文件一起分析来能定位问题,不要拿一次的dump文件来分析问题,没有什么参考性。
dump文件中的线程状态值有:
1.死锁,Deadlock
2.执行中,Runnable
3.等待资源,Waiting on condition
4.等待获取监视器,Waiting on monitor entry
5.暂停,Suspended
6.对象等待中,Object.wait()或TIMED_WAITING
7.阻塞,Blocked
8.停止,Parked
含义分析如下:
1.Deadlock:死锁线程,一般指多个线程调用间,进入相互资源占用,导致一直等待无法释放的情况。
2.Runable:一般指该线程正在执行状态中,该线程占用了资源,正在处理某个请求,有可能正在传递SQL到数据库执行,有可能在对某个文件进行操作,有可能进行数据类型转换。
3.Waiting on condition:等待资源,或等待某个条件的发生。具体原因需结合stacktrace来分析。
如果堆栈信息明确是应用代码,则证明该线程正在等待资源。一般是大量读取某资源,且该资源采用了资源锁的情况下,线程进入了等待状态,等待资源的读取。
或正在等待其他现场的执行
如果发现有大量的线程都处在Wait on Condition,从线程的stack看,正等待网络读写,这可能是一个网络瓶颈的征兆,是因为网络阻塞导致线程无法执行,一种情况是网络非常忙,几乎消耗了所有带宽,仍然有大量的数据等待网络读写;另一种情况也可能是网络空闲,但由于路由等问题,导致包无法正常的到达。
又或者是该线程在sleep,等待sleep的时间到了,将被唤醒
4.Blocked:线程阻塞,是指当前线程执行过程中,所需要的资源长时间等待却一直未能获取到,被容器的线程管理器表示为阻塞状态,可以理解为等待资源超时的线程。
5.Waiting for monitor entry 和 in Object.wait(): monitor是java中用以实现线程之间的互斥与协作的主要手段,它可以看成是对象或者Class的锁。每一个对象都有且只有一个monitor。当某个线程期待获得Monitor及对象的锁,而在锁被其他线程拥有的时候,这个线程就会进入Entry Set区域。曾经获得过锁,但是其他必要条件不满足而需要wait的线程就进入了Wait Set区域。
举例分析:
Waiting to lock 和 Blocked
实例:
"RMI TCP Connection(267865)-172.16.5.25" daemon prio=10 tid=0x00007fd508371000 nid=0x55ae waiting for monitor entry [0x00007fd4f8684000]
java.lang.Thread.State: BLOCKED (on object monitor)
at org.apache.log4j.Category.callAppenders(Category.java:201)
waiting to lock <0x00000000acf4d0c0> (a org.apache.log4j.Logger)
at org.apache.log4j.Category.forcedLog(Category.java:388)
at org.apache.log4j.Category.log(Category.java:853)
at org.apache.commons.logging.impl.Log4JLogger.warn(Log4JLogger.java:234)
at com.tuan.core.common.lang.cache.remote.SpyMemcachedClient.get(SpyMemcachedClient.java:110)
分析:
1)线程状态时Blocked,即阻塞状态。说明线程等待资源超时!
2)“waiting to lock<0x00000000acf4d0c0>”指的是线程在等待给这个0x00000000acf40c0地址上锁。
3)如果在dump日志里查找字符串0x00000000acf40c0,发现有大量的线程在等待给这个地址上锁。如果能找到dump日志里哪个线程获得了这个锁,然后在我们自己打印的log中查到该线程,就能定位到具体位置。
4)"waiting for monitor entry"说明此线程通过synchronized(obj){......}申请进入临界区,进入到了Entry Set队列,但该obj对应的monitor被其他线程拥有,所以本线程在Entry Set中等待。
5)第一行里,“RMI TCP Connection(267865)-172.16.5.25”是Thread Name。tid 指java Thread id。nid 指native线程的id。prio是线程的优先级。[0x00007fd4f8684000]是线程栈起始地址。
示例二:Waiting on condition 和 TIME_WAITING
示例:
"RMI TCP Connection(idle)" daemon prio=10 tid=0x00007fd50834e800 nid=0x56b2 waiting on condition [0x00007fd4f1a59000]
java.lang.Thread.State: TIMED_WAITING (parking)
at sun.misc.Unsafe.park(Native Method)
parking to wait for <0x00000000acd84de8> (a java.util.concurrent.SynchronousQueue$TransferStack)
at java.util.concurrent.locks.LockSupport.parkNanos(LockSupport.java:198)
at java.util.concurrent.SynchronousQueue$TransferStack.awaitFulfill(SynchronousQueue.java:424)
at java.util.concurrent.SynchronousQueue$TransferStack.transfer(SynchronousQueue.java:323)
at java.util.concurrent.SynchronousQueue.poll(SynchronousQueue.java:874)
at java.util.concurrent.ThreadPoolExecutor.getTask(ThreadPoolExecutor.java:945)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:907)
at java.lang.Thread.run(Thread.java:662)
1)“TIME_WAITING(parking)”中的time_waiting指等待状态,但这里指定了时间,到达指定时间后自动退出等待状态;parking指线程处于挂起中。
2)“waiing on condition”需要与堆栈中的“parking to wait for <0x00000000acd84de8>(a java.util.concurrent.SynchronousQueue$TransferStack) ”结合来看。首先,本线程肯定是在等待某个条件的发生,来把自己唤醒。其次,SynchronousQueue并不是一个队列,只是线程之间移交信息的机制,当我们把一个元素放入到SynchronousQueue中时必须有另一个线程正在等待接收移交的任务,因此这就是本线程在等待的条件。
示例三:in Object.wait() 和 TIMED_WAITING
示例如下:
"RMI RenewClean-[172.16.5.19:28475]" daemon prio=10 tid=0x0000000041428800 nid=0xb09 in Object.wait() [0x00007f34f4bd0000]
java.lang.Thread.State: TIMED_WAITING (on object monitor)
at java.lang.Object.wait(Native Method)
waiting on <0x00000000aa672478> (a java.lang.ref.ReferenceQueue$Lock)
at java.lang.ref.ReferenceQueue.remove(ReferenceQueue.java:118)
locked <0x00000000aa672478> (a java.lang.ref.ReferenceQueue$Lock)
at sun.rmi.transport.DGCClient$EndpointEntry$RenewCleanThread.run(DGCClient.java:516)
at java.lang.Thread.run(Thread.java:662)
1)“TIMED_WAITING(on object monitor)”,对于本例而言,是因为本线程调用了java.lang.Object.wait(long timeout)而进入等待状态。
2)“Wait Set”中等待的线程状态就是“in Object.wait()”。 当线程获得了Monitor,进入了临界区之后,如果发现线程继续运行的条件没有满足,他则调用对象(一般就是被synchronized的对象)的wait()方法,放弃了Monitor,进入Wait Set队列。只有当别的线程在该对象上调用了notify()或者notifyAll(),“Wait Set”队列中线程才得到机会去竞争,但是只有一个线程获得对象的Monitor,恢复到运行态。
3)RMI RenewClean是DGCClient的一部分。DGC指的是Distributed GC,即分布式垃圾回收。
4)请注意,是先locked<0x00000000aa672478>,后waiting on<0x00000000aa672478>,之所以先锁在等同一个对象,分析代码如下:
static private class Lock { };
private Lock lock = new Lock();
public Reference<? extends T> remove(long timeout)
{
synchronized (lock) {
Reference<? extends T> r = reallyPoll();
if (r != null) return r;
for (;;) {
r = reallyPoll();
……
}
}
即,线程的执行中,先用synchronized获得了这个对象的Monitor(对应于locked<0x00000000aa672478>);当执行到lock.wait(timeout),线程就放弃了Monitor的所有权,进入“Wait Set”队列
5)从堆栈信息看,是正在清理remote references to remote objects,引用的租约到了,分布式垃圾回收在逐一清理呢。