从“10年大不同”到“10月大不同”，卓老板聊GPT-5

2024-03-27 本文已影响0人观自在007

近期听到《科技参考》卓老板聊到GPT-5, 估计很多科技迷都比较关注这个话题，摘录如下：

GPT-5什么时候上线？性能如何？

在3月15日，阿尔特曼在接受采访时就第一次公布了GPT-5的细节。他透露的信息如下：目前还没有敲定什么时候上线，但进步巨大，提升效果比OpenAI内部预期的还要大，是类似于GPT-3到GPT-4那样质的飞跃。

除了这些，阿尔特曼还谈到了其他方面：

首先，OpenAI现在只关注构建通用型人工智能（AGI），对其他任何科技热点都不再涉足，比如生物技术、区块链。在构建AGI的过程中，最大的困难是训练的数据量不够，未来要开发使用更少数据量进行训练的新模型。

阿尔特曼这个说法也暗示了，在当下这条竞争模式里，训练量和参数规模其实都是一直大幅增加的。曾经有传言说，GPT-4模型的参数比GPT-3还要小，GPT-3的训练数据大约是3000亿token，GPT-4只有几百亿。当然也有传言说，GPT-4训练数据大很多。如果真的更少，OpenAI就不会遇到训练的数据量不足的问题了。这么看起来，当年传说GPT-4训练数据是13万亿token，这个说法其实是更有可能的。

也因为训练数据量太大、参数太多，所以要想实现性能的飞跃，阿尔特曼才计划造出十几倍于今天全球芯片总产业的AI芯片出来。

上个月，阿尔特曼在和比尔·盖茨的一次访谈里还说过，GPT-5会拥有多模态扩展能力，文本、语音、图片、视频整合在一起。所以我觉得，那个特别惊艳的、发布日期未定的Sora，到时可能也是GPT-5的一部分而已。

阿尔特曼虽然说不知道什么时候GPT-5能够上线，但我们可以看到，最近1个月很多竞争者的性能也已经提升或者小幅度超越GPT-4 Turbo了。所以我估计，GPT-5会在四个月内发布，继续大幅拉开和其他竞争者的差距。OpenAI在大语言模型上的先发优势和实力，目前看还是遥遥领先的。如果你是付费用户，也不用着急切换到其他家，GPT-5会在不久后就能用上。

另外，3月初网上也流传出一份OpenAI关于AGI的规划。虽然真假有争议，但这里面的内容看着也挺吓人的。首先，OpenAI从2022年8月起就在训练一个参数量为125万亿的多模态模型，参数量是GPT-3的700多倍。这个模型在2023年12月才刚刚完成训练，但后来因为推理成本太高而取消发布。

在这周二，英伟达也发布了新一代AI计算卡GB200，它集成了两个B200 GPU和一个Grace CPU。总体上看，训练的性能是H100的4倍，推理的性能是H100的7倍，而且大幅改善了多GPU互联的效率。比如，从前16个H100组成的集群，在训练中，有60%的时间用于互相通信，只有40%的时间用于实际计算；但现在改成GB200之后，500多个GPU集群一起工作时才是这个效果。所以，同样是1.8万亿参数规模的训练，需要的能耗也只有上一代的1/4。

扩大参数规模、增加训练数据、提高算力——这三个增加AI性能的法宝，到现在为止还没有遇到瓶颈，所有主要参与者都更努力地试图触及大语言模型的上限。

今天这个年代，已经不是感叹“10年之后世界会大不同”了；而是10个月后，改变世界的最大因素都会大不一样。

从“10年大不同”到“10月大不同”，卓老板聊GPT-5

猜你喜欢

热点阅读