[069]PLL_CLK引发的降帧问题

2021-11-05  本文已影响0人  王小二的技术栈

前言

一个新的项目不管在什么情况下,画面都只能维持30帧左右,不能达到60帧。
一般这种问题首先是转给性能组分析,那就让我开始分析吧。

一、最简单的demo

首先我写了一个最简单的demo,看看能不能达到60帧,结果无法只能达到30帧。


1.1 dequeueBuffer时间长

一般就是没有可用的buffer,SurfaceFlinger的消费能力有问题,需要去看SurfaceFlinger的Trace。

1.2 waiting for GPU completion时间长

一般是GPU的性能不行导致了绘制时间过长,但是我的demo就画了一根线,不可能是GPU性能的问题,有可能是GPU没有及时signal,导致了timeout。虽然我没有找到GPU绘制完成signal代码,但是我很快就放弃了这个思路。因为waitForever中虽然有3000ms的timeout温馨提示,但是最后还是会继续等,而且是timeout never。

status_t Fence::waitForever(const char* logname) {
    ATRACE_CALL();
    if (mFenceFd == -1) {
        return NO_ERROR;
    }
    int warningTimeout = 3000;//温馨提示3000ms,
    int err = sync_wait(mFenceFd, warningTimeout);
    if (err < 0 && errno == ETIME) {
        ALOGE("waitForever: %s: fence %d didn't signal in %u ms", logname, mFenceFd.get(),
              warningTimeout);
        ...
        err = sync_wait(mFenceFd, TIMEOUT_NEVER);//这里是time out never
    }
    return err < 0 ? -errno : status_t(NO_ERROR);
}

加入waiting for HWC release以后,原来是release的fence信号signal慢了,导致的GPU completion的时间也变长了(S平台和之前的平台对于release buffer的流程有所差异)。
为什么waiting for HWC release会慢就需要去看SurfaceFlinger了。


1.3 小结

两个问题点最后都需要指向到SurfaceFlinger,我们继续查看SF的Trace。
PS:以后遇到waiting for GPU completion时间长的问题,不能直接下定论是GPU性能不行。

二、SurfaceFlinger分析

一看SurfaceFlinger发现非常奇怪的事情,sf竟然绘制一帧,丢一帧。


丢一帧的原因是framePending为true,hwcFrameMissed为true,gpuFrameMissed为false。
然后满足了提前return的条件。

void SurfaceFlinger::onMessageInvalidate(int64_t vsyncId, nsecs_t expectedVSyncTime) {
    ....
    // Pending frames may trigger backpressure propagation.
    const TracedOrdinal<bool> framePending = {"PrevFramePending",
                                              previousFramePending(graceTimeForPresentFenceMs)};
    const TracedOrdinal<bool> frameMissed = {"PrevFrameMissed",
                                             framePending ||
                                                     (previousPresentTime >= 0 &&
                                                      (lastScheduledPresentTime <
                                                       previousPresentTime - frameMissedSlop))};
    const TracedOrdinal<bool> hwcFrameMissed = {"PrevHwcFrameMissed",
                                                mHadDeviceComposition && frameMissed};
    const TracedOrdinal<bool> gpuFrameMissed = {"PrevGpuFrameMissed",
                                                mHadClientComposition && frameMissed};
     ....
    // framePending true
    // frameMissed true
    // hwcFrameMissed true
    // gpuFrameMissed false
    if (framePending) {
        if ((hwcFrameMissed && !gpuFrameMissed) || mPropagateBackpressureClientComposition) {
            signalLayerUpdate();
            return;//满足条件提前返回。
        }
    }
    ...
}

而且从图中看到,waiting for presentFence,而且整个wait过程竟然需要27.4ms。也就说sf合成后到开始刷新这一帧到屏幕需要27ms。一时,我也无法继续跟踪下去了,因为对HWC我不是很熟悉。

三、PLL_CLK值有问题

好在驱动工程师突然告诉我说PLL_CLK有问题,从475改成了560问题就解决了。
当时我就一面懵逼,PLL_CLK是什么东西,这个数值代表什么意思。

3.1 PLL_CLK是什么

PLL_CLK就是图中CLK的那段波的频率,也就每秒一次高低电频发生的次数。


转自诺比亚团队

3.2 CMD屏PLL_CLK计算公式

(Data rate) = width * height * 1.2 * total_bit_per_pixel * frame_per_second / total_lane_num
DSI采用的是双边采样,则clk等于数据速率的一半,也就是说一个clk周期内传送2位,所以你计算出来的值还要除以2
即PLL_CLOCK = Data rate / 2 (单位是MHZ)
PS:其中1.2应该是一个经验值。

经过计算我们屏幕PLL_CLK合适的值应该是559左右

width = 1080 (屏幕分辨率是1080 * 2400)
height = 2400
total_bit_per_pixel = 24 (RGB值,每个字节是8位,三个字节)
frame_per_second = 60 (60帧的屏幕)
total_lane_num = 4(4根线)
Data rate = 1080 * 2400 * 1.2 * 24 * 60 / 4 = 1119744000
即PLL_CLOCK = Data rate / 2 = 559872000 = 559.872MHZ

公式可能看不明白,这样子解释你就明白了。

1秒内60hz的手机需要传递的数据是多少。
屏幕的宽x屏幕的高x每个像素点的数据量x每秒的帧率。
1080x2400x24x60
由于有4根传输线,并且一次高低电频可以传输2次,所以PLL_CLOCK至少要达到以下数值
1080x2400x24x60/4/2
但是不能那么小气,加上一个经验值1.2
1080x2400x24x60x1.2/4/2 = 559872000 = 559.872MHZ

3.3 小结

之前设置的PLL_CLK值过小,传输速率过低,导致前一帧无法在一个vsync周期内将屏幕的数据传输给屏幕,导致这一帧的presentFence等待signal时间过久,然后sf主动丢了一帧,从而导致屏幕从60fps降为了30fps。但是目前presentFence和传输数据给屏幕之前的关系,我还没有找到对应的代码,因为我对驱动不是很熟悉。

四、整个过程还原

可以用已经掌握的知识来还原整个上层的流程,整个过程更加清晰了。


总结

整个问题还是非常有意思的,强烈推荐大家阅读参考资料中的文章,让我对屏幕显示画面有了更加深入的理解,而且也终于理解了为什么画面会有出现撕裂。

参考资料

https://www.jianshu.com/p/df46e4b39428
这几个图画的是真好,仍不住转载一下

可以看到DSI有4根线,就是total_lane_num
如果写的速度慢于扫描的速度,就有可能花屏

尾巴

当然有时间还是想去看看显示驱动那块的代码,给自己留几个问题。
有知道朋友欢迎留言解惑。

presentFence          唤醒的代码位置
GPU completion        唤醒的代码位置
HWC release           唤醒的代码位置
上一篇下一篇

猜你喜欢

热点阅读