ARM Mali GPU - G72

2020-11-30  本文已影响0人  QiHangkong
Mali-G72

2017年5月,ARM发布其第一款支持DynamIQ topology的CPU CortexA55和Cortex A75,同时也发布Mali-G72,为他们的GPU IP提供了及时的年度更新。ARM的新型高端高性能GPU设计Mali-G72取代了Mali-G71,并针对Mali-G71进行了设计修订和优化,以进一步提高高性能SoC的性能和能效。

自去年推出Mali-G71及其底层的Bifrost GPU架构以来,ARM在今年没有做任何疯狂的事情。现在,该公司已对Bifrost进行了长期投资,因此,像之前的Midgard架构一样,该公司将继续优化,调整,修订和更新该架构,以在未来一两年内满足其客户的需求。Mali-G72则是该架构的第一个此类修订版,它利用了ARM在设计G71时学到的知识,以改进其高性能GPU设计。

Bifrost 架构

在架构方面,Mali-G72不会对Bifrost架构进行任何根本性的改动。基于SIMT Quad的执行模型基本不变,各种功能块的比率没有改变。所以对于逐个时钟来讲,Mali-G72的基本吞吐量与Mali-G71相同。

Mali G72

也就是说,Mali-G72的所有细节都与优化有关。尽管ARM尚未进行任何高级更改,但该公司进行了许多较小的,低级的更改,这些更改对将Mali-G71提升到Mali-G72产生了更大的影响。因此,该公司正在推广较新的GPU设计,与Mali-G71相比,其能效提高了25%,性能密度提高了20%,从而使性能提高了40%。
面积和功率效率当然是移动GPU的命脉,而像Mali-G71 / G72这样的高性能设计并没有设计得足够多地推动着面积效率的提高-而是青睐高性能,而SoC供应商全部用于修剪宝贵的面积,以降低成本。

Mali G72的边际收益

ARM没有提供关于所有这些优化来自何处的大量信息-很大程度上是大量细微变化的总和-但是提供了一些关键信息。特别是,ARM实际上已经从其体系结构中删除了一些复杂的指令,而不是像其他更简单的指令一样在多个时钟上执行它们。执行指令是节省芯片空间的一种重要方法,它允许ARM丢弃执行那些指令所需的晶体管。显然,这是一把双刃剑-模拟指令的速度较慢-但是不经常使用的指令可能不值钱。在这种情况下,我怀疑我们会研究一些特别深奥的事物,例如原子浮点。

ARM还进行了一些改进,以提高其他所需的复杂操作的吞吐量。这包括诸如倒数平方根和其他倒数函数之类的东西,它们现在可以更快地完成,但是仅对于图形而言(有趣的区别,因为符合IEEE 754的计算操作保持不变)。尽管除了进一步优化数据在FMA和ADD / SF单元之间的移动方式之外,ARM还对ALU的内部数据路径进行了更广泛的调整,这与之并驾齐驱。

但是,就整体性能效率而言,Mali-G72的重大变化不是在指令级别,而是在缓存级别。广为人知的是,ARM几乎在每个步骤中都调整了缓冲区和缓存。这包括使L1高速缓存,写回高速缓存和tiler缓冲区全部更大。同时,指令高速缓存的大小没有变化,但是ARM对其逻辑进行了调整(大概是所使用的算法),以通过减少未命中来提高利用率。

所有这些与缓存相关的调整都旨在实现减少内存带宽使用的共同目标。这不仅对于扩展大型GPU的性能具有重要意义-GPU的功能比内存带宽的增加更快,而且功能更强大-而且由于内存操作相对昂贵,因此还可以提高电源效率。更大的缓存减少了未命中率,总体性能提高当然也不会受到损害。

渲染例子

反过来,ARM特别为图形和机器学习任务提供了缓存更改的好处。在图形方面,他们选择的案例研究发现,由于较大的写缓冲区,G缓冲区写使用的片外内存带宽减少了42%。请记住,这很可能是挑剔的情况,但是ARM并没有脱离基地,因为更复杂的场景会限制较小缓冲区的极限(最终证明较大缓冲区的面积成本是合理的)。同时,在机器学习方面,ARM报告说SGEMM基准能效提高了13%(HGEMM则提高了17%),这要归功于缓存更改和前面提到的指令更改的结合。ARM在其整个SoC IP系列中的最大推动力之一就是在边缘进行推理,因此,即使是很小的改进也可以提高他们的整体地位。

Mali G72 提升

总结一下,我们应该会在一年左右的时间内看到ARM的新Mali-G72设计出现在设备中。尽管ARM并不负责其IP的实际芯片,因此,最终由SoC供应商掌握-Mali-G71确实在发布后仅8个月就出现在了HiSilicon Kirin 960上。因此,如果合作伙伴想要推动它,他们可以在类似的时间内完成Mali-G72。尽管更接近三星大约1年的节奏,这在价格上可能会更合理。

上一篇下一篇

猜你喜欢

热点阅读