让我们猜猜看，下一代操作系统和三方应用会是什么样？

2024-05-30 本文已影响0人真阿当

类似于gpt4o这种多模态实时大模型AI，最适合的硬件载体不是手机，而是AR眼镜。预测一下，google glass会不会复活？

就像smart phone取代pc，进入移动互联网时代，LLM也将带来新一代的操作系统和应用：

1、以VR眼镜为主要硬件载体

2、LLM将作为操作系统级底层，以agent思想为核心，交互设计以多模交互为主（眼镜摄像头、麦克风、手势识别、基于AR的互动），memory有保存至本地的，也有cloud端的，总之会记录用户的各种关键信息，7x24私人助理，贴身还懂你。

3、操作系统之上的应用层，分为action和agent两类。action部分，比如计算器、天气、记事本，是传统的编程模式，输入输出非常明确的硬编码，不涉及LLM。agent是更智能的部分，一个个垂直的专家，比如电子化办公的、编程的、设计的，agent由LLM驱动，用ReAct方式调用action，进一步解放人脑。

操作系统的agent是超级大管家，和人类接触的入口，超级大管家接受用户指令后调用action或其他专家agent。os层面内置了一些action和agent，同时也支持调用三方公司提供的action和agent。

action有带GUI界面的，也有纯api的，比如返回个json什么的。而agent才是终极形态，比如说，旅行网站可以提供一个旅行agent。当用户向操作系统的大管家agent说“请帮我安排一下下周四去东京的旅游行程”，大管家agent会向用户询问一些细节，几个人去啊，预算多少啊什么的，然后调用旅行专家agent（比如携程提供的agent），旅行专家会给出几个具体方案给管家agent，比如机票、酒店、旅游线路、时间行程排、费用明细之类，然后让用户确认。用户可以追加细节，旅行agent调整方案，反复几轮后，确定了详细计划。用户确认后，机票、酒店、门票等等自动下单，系统自带的用户日程自动更新，到点提醒。

这里的关键点就在于用户由“员工”变成了“boss”，只需要发出指示，然后等agent给出详细方案，再批示接受哪个方案，只做选择题和判断题。

os层面向三方开发者提供的sdk，本质上和之前的时代并无不同，最大的区别在于action多了api这种形式，而agent则需要调用LLM。至于多模交互方面，一定会弱化GUI，强化语音和手势，毕竟LLM时代的os，硬件可能是任何形式，不一定带键盘和屏幕。

以上纯猜想，3、5年内应该就能判断这个猜想离不离谱了。现在做通用大模型的公司，未来是有机会角逐操作系统级竞争的（鸿蒙加油，百度加油）。做各行业应用的，赶紧研究下LLM编程，准备下api接口和agent，早做准备，未来这个方向肯定又有一波流量红利和程序员稀缺行情，参考2010、2011年的移动互联网。而做垂直大模型的，你们自求多福吧，方向一定错了。。。

让我们猜猜看，下一代操作系统和三方应用会是什么样？

猜你喜欢

热点阅读