GPU优化
通过阅读本文,你将知道:
-
什么是GPU优化
-
优化GPU的思路是怎样的
-
常见的优化GPU的方法有哪些
介绍
在做GPU优化之前,我们需要知道:
-
定位到瓶颈是前提。优化非瓶颈阶段,相当于做无用功
-
瓶颈总是存在的,而且通常是动态变化的。在GPU上运行某应用程序,总有一个阶段是瓶颈,而且随着运行不同的应用程序,瓶颈也是动态变化的
-
尽量不要过度优化。只需要优化到当前阶段不是瓶颈了即可
-
如果我们说应用程序处理阶段是瓶颈,代表着在一帧的渲染过程中,它大部分时间都是是整个流水线中最慢的阶段。
-
如果瓶颈已经不能再优化了,那么可以让其他阶段做更多的事情。类似于单位时间内可以渲染的帧的数量已经无法提升,那么可以提高每一帧的渲染质量。
瓶颈定位
瓶颈定位的思路,
-
为待测阶段设计若干测试用例,各测试用例在该阶段的工作量递减,其他阶段的工作量保持不变。如果帧率提升,那么该阶段很有可能就是瓶颈。
-
为待测阶段设计若干测试用例,各测试用例在该阶段的工作量不变,其他阶段的工作量递减。如果帧率保持不变,那么该阶段很有可能就是瓶颈。
GPU流水线可以大致划分为四个阶段,分别为:应用程序处理阶段、几何处理阶段、光栅化阶段和像素处理阶段。接下来,我们详细介绍每个阶段的可用的瓶颈定位方法。
应用程序处理阶段
-
直接查看CPU的使用率
-
如果CPU使用率维持在100%或者接近100%,则可以简单地认为应用程序处理阶段是瓶颈。
-
这种方式有的时候不靠谱,因为有可能CPU是在等待GPU完成一帧的渲染。
-
-
架空GPU的情况下查看CPU的使用率
-
架空GPU方式可以用一个空的驱动程序。
-
这种方式的缺点是:检测不到驱动程序的处理导致的瓶颈问题以及CPU和GPU交互导致的瓶颈问题。
-
-
让CPU降频或超频运行
- 如果降频导致性能相应地等比例降低,那可以认为应用程序处理阶段是瓶颈。超频是类似的。
几何处理阶段
-
增加顶点属性
- 增加顶点属性(如纹理坐标)相当于增加了顶点抓取的数据量,如果增加后GPU性能下降则可以认为顶点抓取便是瓶颈。
-
增加染色程序的大小
-
增加染色程序的长度之后,如果GPU性能下降则可以认为顶点处理是瓶颈。
-
需要注意,要避免编译器优化掉添加的无效指令。
-
光栅化阶段
-
Shadow Map Generation这个功能使用的像素染色程序非常简单,使用这个功能的时候,光栅化和像素合并阶段都有可能成为瓶颈。
-
在渲染小三角形比较多的场景时(如草地或树叶),光栅化可能会成为瓶颈。验证方法是:增加染色程序的大小。如果渲染一帧的时间没有增加,那么光栅化阶段便是瓶颈。
像素处理阶段
-
降低屏幕分辨率
- 如果把屏幕分辨率降低可以显著提升帧率,那么很有可能像素处理阶段便是瓶颈。
-
增加片段染色程序的大小
-
增加染色程序的长度之后,如果GPU性能下降则可以认为像素处理是瓶颈。
-
需要注意,要避免编译器优化掉添加的无效指令。
-
-
简化片段染色程序
- 简化片段染色程序之后,如果一帧的渲染时间下降明显则可以认为像素处理是瓶颈。
-
降低纹理大小
-
修改缓冲区的位深度
-
打开关闭混合
-
改变混合模式
-
渲染头发、草地、树叶等(像素染色程序简单
优化瓶颈
对于应用程序处理阶段,
-
提高代码运行效率
-
提高存储访问效率
-
减少存储访问
对于几何处理阶段,
-
优化染色程序,尤其是光照相关
-
顶点预加载
-
顶点数据压缩
对于光栅化阶段,
-
Early Z
-
开启背面消隐
对于像素处理阶段,
-
Early Z
-
开启背面消隐
-
数据压缩
-
像素和深度缓冲区合并
-
Forward Pixel Killing
-
Transaction Elimination
总结
-
GPU优化是找到GPU的瓶颈阶段并使得该阶段不再是瓶颈的过程,以及让非瓶颈阶段做更多有意义的事情的过程。
-
瓶颈定位的思路:
-
为待测阶段设计若干测试用例,各测试用例在该阶段的工作量递减,其他阶段的工作量保持不变。如果帧率提升,那么该阶段很有可能就是瓶颈。
-
为待测阶段设计若干测试用例,各测试用例在该阶段的工作量不变,其他阶段的工作量递减。如果帧率保持不变,那么该阶段很有可能就是瓶颈。
-
-
简单介绍了应用程序处理阶段、几何处理阶段、光栅化阶段和像素处理阶段的常见瓶颈定位和优化方法。