让我们猜猜看,下一代操作系统和三方应用会是什么样?
类似于gpt4o这种多模态实时大模型AI,最适合的硬件载体不是手机,而是AR眼镜。预测一下,google glass会不会复活?
就像smart phone取代pc,进入移动互联网时代,LLM也将带来新一代的操作系统和应用:
1、以VR眼镜为主要硬件载体
2、LLM将作为操作系统级底层,以agent思想为核心,交互设计以多模交互为主(眼镜摄像头、麦克风、手势识别、基于AR的互动),memory有保存至本地的,也有cloud端的,总之会记录用户的各种关键信息,7x24私人助理,贴身还懂你。
3、操作系统之上的应用层,分为action和agent两类。action部分,比如计算器、天气、记事本,是传统的编程模式,输入输出非常明确的硬编码,不涉及LLM。agent是更智能的部分,一个个垂直的专家,比如电子化办公的、编程的、设计的,agent由LLM驱动,用ReAct方式调用action,进一步解放人脑。
操作系统的agent是超级大管家,和人类接触的入口,超级大管家接受用户指令后调用action或其他专家agent。os层面内置了一些action和agent,同时也支持调用三方公司提供的action和agent。
action有带GUI界面的,也有纯api的,比如返回个json什么的。而agent才是终极形态,比如说,旅行网站可以提供一个旅行agent。当用户向操作系统的大管家agent说“请帮我安排一下下周四去东京的旅游行程”,大管家agent会向用户询问一些细节,几个人去啊,预算多少啊什么的,然后调用旅行专家agent(比如携程提供的agent),旅行专家会给出几个具体方案给管家agent,比如机票、酒店、旅游线路、时间行程排、费用明细之类,然后让用户确认。用户可以追加细节,旅行agent调整方案,反复几轮后,确定了详细计划。用户确认后,机票、酒店、门票等等自动下单,系统自带的用户日程自动更新,到点提醒。
这里的关键点就在于用户由“员工”变成了“boss”,只需要发出指示,然后等agent给出详细方案,再批示接受哪个方案,只做选择题和判断题。
os层面向三方开发者提供的sdk,本质上和之前的时代并无不同,最大的区别在于action多了api这种形式,而agent则需要调用LLM。至于多模交互方面,一定会弱化GUI,强化语音和手势,毕竟LLM时代的os,硬件可能是任何形式,不一定带键盘和屏幕。
以上纯猜想,3、5年内应该就能判断这个猜想离不离谱了。现在做通用大模型的公司,未来是有机会角逐操作系统级竞争的(鸿蒙加油,百度加油)。做各行业应用的,赶紧研究下LLM编程,准备下api接口和agent,早做准备,未来这个方向肯定又有一波流量红利和程序员稀缺行情,参考2010、2011年的移动互联网。而做垂直大模型的,你们自求多福吧,方向一定错了。。。