JVM代码优化:方法内联(Method inlining)

2019-05-27  本文已影响0人  WillMiao

什么是方法内联

方法内联,是指JVM在运行时将调用次数达到一定阈值的方法调用替换为方法体本身,从而消除调用成本,并为接下来进一步的代码性能优化提供基础,是JVM的一个重要优化手段之一。

如何进行方法内联

方法内联是由JIT编译器在运行时完成的。既然涉及到编译,方法内联也是有一定的开销的,包括cpu时间和内存,所以这又是一个trade-off的老问题了。JIT根据以下信息决定是否进行内联:

具体例子

我们看一下具体例子。

假设有如下接口和实现定义:

    interface Host {
        int compute(int x, int y);
    }

    static class HostA implements Host {
        @Override
        public int compute(int x, int y) {
            return x + y;
        }
    }

    static class HostB implements Host {
        @Override
        public int compute(int x, int y) {
            return x + x + y;
        }
    }

    static class HostC implements Host {
        @Override
        public int compute(int x, int y) {
            return x + y + y;
        }
    }

    static class HostD implements Host {
        @Override
        public int compute(int x, int y) {
            return x - y;
        }
    }

使用以下代码进行调用测试:

public class TestInline {
    private static final int COUNT = 2000000000;

    public static void main(String[] args) {
        System.out.println(arrayCompute() + " " + virtualCompute() + " " + interfaceCompute());
    }

    static long arrayCompute() {
        Host[] hosts = new Host[4];

        hosts[0] = new HostA();
        hosts[1] = new HostB();
        hosts[2] = new HostC();
        hosts[3] = new HostD();

        long start = System.currentTimeMillis();
        Random r = new Random(start);

        int x = r.nextInt(10);
        int y = r.nextInt(10);

        for (int i = 0; i < COUNT; i++) {
            for (Host host : hosts) {
                x = host.compute(x, y);
            }
        }

        return System.currentTimeMillis() - start;
    }

    static long virtualCompute() {
        HostA hostA = new HostA();
        HostB hostB = new HostB();
        HostC hostC = new HostC();
        HostD hostD = new HostD();

        long start = System.currentTimeMillis();
        Random r = new Random(start);

        int x = r.nextInt(10);
        int y = r.nextInt(10);

        for (int i = 0; i < COUNT; i++) {
            x = hostA.compute(x, y);
            x = hostB.compute(x, y);
            x = hostC.compute(x, y);
            x = hostD.compute(x, y);
        }

        return System.currentTimeMillis() - start;
    }

    static long interfaceCompute() {
        Host[] hosts = new Host[4];

        hosts[0] = new HostA();
        hosts[1] = new HostB();
        hosts[2] = new HostC();
        hosts[3] = new HostD();

        long start = System.currentTimeMillis();
        Random r = new Random(start);

        int x = r.nextInt(10);
        int y = r.nextInt(10);

        for (int i = 0; i < COUNT; i++) {
            x = hosts[0].compute(x, y);
            x = hosts[1].compute(x, y);
            x = hosts[2].compute(x, y);
            x = hosts[3].compute(x, y);
        }

        return System.currentTimeMillis() - start;
    }
}

测试方法说明:

添加如下JVM启动选项:

-XX:+PrintCompilation -XX:+UnlockDiagnosticVMOptions -XX:+PrintInlining

选项参数说明:

3个测试方法(arrayCompute、virtualCompute和interfaceCompute)所做的工作完全一致,哪个方法在实际运行中性能最好呢?哪些Host::compute调用会被内联,这些内联又能对性能有多大影响呢?

运行结果及分析

运行时间结果:

43393 1477 1471

可以看到virtualCompute和interfaceCompute耗时相近,但arrayCompute耗时则远超其他两个方法

查看JIT编译日志和调试信息,可以看到对于arrayCompute方法,有以下日志信息:

TestInline$Host::compute (0 bytes)   not inlineable

而对于virtualCompute和interfaceCompute方法,有以下日志信息:

TestInline$HostA::compute (4 bytes)   inline (hot)
TestInline$HostB::compute (4 bytes)   inline (hot)
TestInline$HostC::compute (4 bytes)   inline (hot)
TestInline$HostD::compute (4 bytes)   inline (hot)

以上日志信息说明,arrayCompute方法中对Host::compute的调用,JIT认为“not inlineable”,未对其进行内联优化;另一方面,对virtualCompute和interfaceCompute中的Host::compute调用,JIT唯一确定了每个调用的具体实现方法,并进行了内联优化(注:inline (hot)表示当前调用已被内联)。结合运行时间结果,可以看到方法内联带来的性能提升是巨大的。在本例中,方法内联带来的性能提升约为20多倍。

比较有意思的一点是,interfaceCompute相对于arrayCompute,仅仅是将foreach loop做了展开,但结果却是让JIT唯一确定了interface方法的具体实现实例,从而可以正确的完成内联优化。这里面的JIT逻辑我也还没有进一步的了解,暂作留存,待后面再做研究吧。

结论

同时需要明白,方法内联带来的性能提升不仅仅在消除了调用开销上,而在于在代码内联的基础上,JVM可以对代码进行更进一步的优化。这部分将在后续的blog中继续探讨。

一些额外的观察

  1. 若我们仅调用和比较virtualCompute、interfaceCompute两个方法,运行时间结果如下:
1984 1699

可以看到第一个方法的耗时要大于第二个方法。即便更换这两个方法的调用次序,结果仍是如此,即第一个方法耗时都要大于第二个方法的耗时。我对这个结果的解释是,JIT需要进行一定的Profile之后,才能确定哪些方法调用是hot的,进而进行内联优化;而在这之前,该有的调用开销并没有办法被消除,从而导致了上面的耗时上的差异。

  1. 对于interfaceCompute,inlining调试信息中显示,在最初时JIT也认为Host::compute调用为“not inlineable”;但在若干次调用后,又将调用的方法明确到具体实例所实现的方法,并显示"inline (hot)"。这里的JIT逻辑需要进一步了解。

TODO

进一步了解JIT唯一确定某个public方法具体实现的逻辑。
进一步了解建立在内联基础之上的进一步JVM代码优化。

上一篇 下一篇

猜你喜欢

热点阅读