从“10年大不同”到“10月大不同”,卓老板聊GPT-5

2024-03-27  本文已影响0人  观自在007

近期听到《科技参考》卓老板聊到GPT-5, 估计很多科技迷都比较关注这个话题,摘录如下:

GPT-5什么时候上线?性能如何?

在3月15日,阿尔特曼在接受采访时就第一次公布了GPT-5的细节。他透露的信息如下:目前还没有敲定什么时候上线,但进步巨大,提升效果比OpenAI内部预期的还要大,是类似于GPT-3到GPT-4那样质的飞跃。

除了这些,阿尔特曼还谈到了其他方面:

首先,OpenAI现在只关注构建通用型人工智能(AGI),对其他任何科技热点都不再涉足,比如生物技术、区块链。在构建AGI的过程中,最大的困难是训练的数据量不够,未来要开发使用更少数据量进行训练的新模型。

阿尔特曼这个说法也暗示了,在当下这条竞争模式里,训练量和参数规模其实都是一直大幅增加的。曾经有传言说,GPT-4模型的参数比GPT-3还要小,GPT-3的训练数据大约是3000亿token,GPT-4只有几百亿。当然也有传言说,GPT-4训练数据大很多。如果真的更少,OpenAI就不会遇到训练的数据量不足的问题了。这么看起来,当年传说GPT-4训练数据是13万亿token,这个说法其实是更有可能的。

也因为训练数据量太大、参数太多,所以要想实现性能的飞跃,阿尔特曼才计划造出十几倍于今天全球芯片总产业的AI芯片出来。

上个月,阿尔特曼在和比尔·盖茨的一次访谈里还说过,GPT-5会拥有多模态扩展能力,文本、语音、图片、视频整合在一起。所以我觉得,那个特别惊艳的、发布日期未定的Sora,到时可能也是GPT-5的一部分而已。

阿尔特曼虽然说不知道什么时候GPT-5能够上线,但我们可以看到,最近1个月很多竞争者的性能也已经提升或者小幅度超越GPT-4 Turbo了。所以我估计,GPT-5会在四个月内发布,继续大幅拉开和其他竞争者的差距。OpenAI在大语言模型上的先发优势和实力,目前看还是遥遥领先的。如果你是付费用户,也不用着急切换到其他家,GPT-5会在不久后就能用上。

另外,3月初网上也流传出一份OpenAI关于AGI的规划。虽然真假有争议,但这里面的内容看着也挺吓人的。首先,OpenAI从2022年8月起就在训练一个参数量为125万亿的多模态模型,参数量是GPT-3的700多倍。这个模型在2023年12月才刚刚完成训练,但后来因为推理成本太高而取消发布。

在这周二,英伟达也发布了新一代AI计算卡GB200,它集成了两个B200 GPU和一个Grace CPU。总体上看,训练的性能是H100的4倍,推理的性能是H100的7倍,而且大幅改善了多GPU互联的效率。比如,从前16个H100组成的集群,在训练中,有60%的时间用于互相通信,只有40%的时间用于实际计算;但现在改成GB200之后,500多个GPU集群一起工作时才是这个效果。所以,同样是1.8万亿参数规模的训练,需要的能耗也只有上一代的1/4。

扩大参数规模、增加训练数据、提高算力——这三个增加AI性能的法宝,到现在为止还没有遇到瓶颈,所有主要参与者都更努力地试图触及大语言模型的上限。

今天这个年代,已经不是感叹“10年之后世界会大不同”了;而是10个月后,改变世界的最大因素都会大不一样。

上一篇下一篇

猜你喜欢

热点阅读