大型语言模型(LLM)的“规模效应”
大型语言模型(LLM)领域内“规模效应”理论,这一原理将是推动人工智能(AI)持续飞跃的关键力量,即便面对行业内关于进步放缓的种种质疑
“坚信我们尚未到达规模效应带来的边际效益递减的临界点。这一过程本质上是呈指数级增长的,然而,显著的变化往往需要长时间的累积才能显现,因为构建超级计算系统并用于模型训练是一项极其耗时和复杂的工程。”
2020年,OpenAI团队便深入研究了LLM的规模效应,该理论揭示,随着模型参数量的增加、训练数据的扩充以及计算能力的提升,语言模型的性能将实现可预测的增长。这一发现意味着,即便没有算法层面的根本性突破,单纯通过扩大模型规模和训练数据量,也能有效提升AI的整体能力。
近年来,有关规模效应长期适用性的质疑声也逐渐浮现。尽管如此,该理论依然是OpenAI及其合作伙伴如微软在AI研发中的核心指导思想。那些认为顶尖AI模型如GPT-4等已陷入进步停滞的批评声音形成了鲜明对比。这些批评多基于对新模型如谷歌Gemini 1.5 Pro、Anthropic的Claude Opus及GPT-4等的非官方评估,认为它们并未带来预期中的革命性变化,暗示大型语言模型的发展或已接近“边际效益递减”的门槛。
AI领域的知名观察家Gary Marcus在今年早些时候就提出了类似的疑问,他质疑了AI进步能否持续高速进行,尤其是在新一代模型并未显著超越前代的情况下。
面对这些质疑,斯科特代表微软等科技巨头表达了继续投资于大型AI模型的决心,他们相信通过持续的资源投入能够迎来新的突破。微软对OpenAI的投资及其在AI协作工具“Microsoft Copilot”上的努力,正是其致力于推动AI领域持续进步的明证。
与此同时,AI领域的另一位评论家Ed Zitron则指出,部分人对OpenAI持有不切实际的期待,认为他们掌握了能够解决所有问题的神秘技术。但他澄清道:“事实并非如此。”
公众对于大型语言模型进步速度放缓的感知,部分源于AI技术仍处于快速发展但公众理解尚浅的阶段。自GPT-3以来,OpenAI在该领域持续深耕,直至推出GPT-4,而ChatGPT的广泛普及更是让大众深刻感受到了LLM的潜力。
斯科特不仅反驳了AI进步停滞的论调,还指出了新模型研发周期长和数据更新缓慢的现实挑战。但他对未来充满信心,认为即将到来的突破将解决现有模型成本高、稳定性差等问题,推动AI技术向更加成熟和可靠的方向发展。