7. 什么是Scaling law?

2025-04-22  本文已影响0人  codeMover

7.1 什么是Scaling law

7.1.1 Scaling low的目标

在训练之前了解模型能力,以改善关于大模型的对齐,安全和部署的决定。

GPT4和较小模型的性能表现,在训练之前就大致预测处理GPT的性能边界

虚线表示对较小模型(不包括GPT4)的幂律拟合,该拟合可以精准预测GPT4的最终损失。横轴为训练计算量,并进行了标准化处理,使得GPT4的对应值为1。

7.1.2 Scaling low的定义

是否可以通过Scaling Law预测大模型的计算量、数据集规模和模型规模这三个因素变化是,损失值变化?这些预测能帮助一些管家你设计决策,比如在固定资源预算下,匹配模型的最佳大小和数据大小,而无需进行及其昂贵的试错。

7.2 OpenAI vs SeepMind

7.2.1 OpenAI关于Scaling law观点

模拟神经语言模型的模型性能(Loss)与模型大小,数据集大小和训练量的关系。


image.png

用于训练的计算量、数据集规模和模型规模的增加,语言建模性能平稳提升。
为了获得最佳性能,必须将这三个因素同步扩大。
当没有受到其他两个因素限制时,性能与每个单独因素之间呈幂律关系;当没有其他两个瓶颈时,性能会急剧上升,影响程度为计算量>参数>>数据集大小。

7.2.2 DeepMind关于Scaling law观点

Deepmind人为模型大小和训练token的数量都应该按相等的比例进行扩展。
在给定的计算量下,数据量个模型参数量之间的选择平衡存在一个最优解。

7.3 总结

上一篇 下一篇

猜你喜欢

热点阅读