2025 年被称为「Agent 元年」，你认为是名副其实还是过誉

2025-12-23 本文已影响0人悦读职场

所谓Agent，即多模态智能体。如今的多模态处理已经支持文本、图像、视频、音频、3D数据的无缝解析，例如分析运动视频动作缺陷或生成手写食谱的双语电子书等。2025年AI的发展的确异常迅猛，以至于让很多人心里感到不安和焦虑。

据说，目前最强大的多模态模型是谷歌Gemini 3，其在LMArena榜单得分1501Elo，推理测试正确率接近92%，并支持DeepThink模式解决ARC-AGI-2等复杂问题。有人说这是撬开了AGI的大门。

在谷歌最新的Gemini 3和Nano Banana Pro发布前，黄仁勋和奥特曼都一直雄心勃勃，自信非常。他们之前的日子过得可谓风生水起。谷歌，这家曾被认为在AI时代稍显落后、有点沉睡的巨头企业，如今也似乎正在全面觉醒。

Gemini 3是谷歌于2025年11月18日推出的新一代大型语言模型，是基于稀疏混合专家架构并拥有超万亿参数，完全基于TPU训练的大模型。该模型配备100万token上下文窗口，支持处理文本、图像、视频、音频和代码等多模态数据，发布当日就已经整合了谷歌搜索AI模式、Gemini应用、API接口及Vertex AI等产品线内容。与此同步发布的Google Antigravity开发平台支持自然语言生成完整代码，实现动态界面定制与多智能体协作执行复杂任务，在AI领域显然已经做到了遥遥领先。

其实早在此前OpenAI发布推理模型O3时，就已经让很多人陷入了存在主义危机，在O3发布之初，经济学家泰勒.科文（Tyler Cowen）当时也参加了产品内测，据他当时的判断是其实O3就是AGI（超级人工智能）。

顶尖生物学家德里亚.乌鲁特马兹（Derya Unutmaz）在X上发文说，他认为O3的智能水平已经达到了或者接近天才水平。后来当o1-Pro刚发布时，人们更慌了……现在是不是看到谷歌的Gemini 3，你更慌了呢？

OpenAI的首席执行官山姆.奥特曼曾经在一次访谈中说，“当AGI真正来临的那一天，一开始什么都不会发生，它不会立马改变世界……但是几年之后，世界会因此而巨变……”笔者想这句话的意思就是，现在我们很多人还不知道该如何用好AI，没有让AI发挥出它最大的潜力。以至于现在如何用好AI它仍是一项非常稀缺的能力。

现在的很多Agent都是非常聪明的模型，它们会原生态地调用各种工具，很多时候我们不应让它回答一个问题，而是要给它一个任务让它去完成。比如你给它们一张照片，它们就可以找出这张照片你是在哪拍的，它们也可以帮你在网上找到你多年不联系的朋友的账号。但是它们在聪明的同时也会产生幻觉的。例如，它们在编程时可能也会犯错误，它们在回答问题时可能会胡说八道，对一句名言的出处可能会张冠李戴。

说2025年是Agent元年其实也不是过誉，因为在2025年的年初和年尾都有这么重磅的AI产品，是不是已经亮瞎了很多人的眼睛？！

但是目前的Agent它们可能还是处于这样一个阶段：它们真的很擅长用很多“高观点”去分析事物的本质。什么是“高观点”呢？所谓高观点就是“StochasticParrot”，它是指某些大语言模型其实就像一只“会说话的鹦鹉”，它只能依靠大数据进行统计预测，说白了其实就是它也只是模仿人类语言的表面结构，而非真正理解人类语言的真正语义。

比如你给AI一道数学题，它也会帮你解答，但是你从它的解题步骤中就可以很明显感觉到它有机械套用的痕迹，要是一个人类老师给孩子们讲题，那首先就是教会孩子要抓住解决这个数学问题的关键要点和解决数学问题时需要首先理解其要表达的数学意义，因此人和AI还是有很大区别的。

再比如你问AI“王阳明心学到底说的是什么？”AI可能会告诉你，“阳明心学就是让你发现良知，然后立刻去做！”所以，AI用“高观点”处理问题不是人类强加给它的标签，而是这的确是AI无意识下的一种本能展示。

2025 年被称为「Agent 元年」，你认为是名副其实还是过誉

猜你喜欢

热点阅读