当前AI应用与发展趋势分析汇总
近年来各类AI工具火爆,国家扶持补贴,媒体造势,科技股飞涨,同十多年前的“互联网+”类似,促使更多企业加入到人工智能赛道,从近几年的ChatGPT、Claude、Gemini、Grok到近期席卷全球的DeepSeek。当前的AI工具无论吹嘘得有多神,其终究定位——免费便民增效的辅助工具,并非使用了某款AI工具,就能一飞冲天,学习进步、工作效率倍增,炒股赚彩票中奖,从此发家致富。网络上使用AI赚钱的新闻实际上是靠AI工具完成了原来很难或做不到的某环节工作,完全靠AI赚钱如同向AI索要钱财一样不现实。
各AI工具主要作用:
文字类:
检索资料,稍微用到深奥广泛的知识很容易回答不准确。例如“策划一条环球旅行线路,要求 1、游遍六大洲;2、避开政局不稳定动荡国家;3、在旅游国办理下一国旅游签证便利;4、根据南北半球反季尽量保持旅行时温度宜人;5、费用尽量低廉”。无论哪个平台给出的答案都仅罗列各大洲主要国家城市景点,并未达到设计一条明确时间线路的用户需求。
带有主观评价的信息无法代替人进行选择排位。例如问“某市哪家海鲜最好吃”,AI回答通常只能罗列出当地一些有名气的饭店,巷深特色小吃店不在其数据范围内。
编程辅助,写出的代码往往无法直接使用,需手动做二次修改,要实现大程序功能更无可能一次性出结果,需拆分每个功能点分别检索,最后手动将其整合,变量名称统一、类型修改、运行报错解决,一个外行人纯靠AI写程序肯定弄不来。
写作创作,把已有的小说编剧剧情综合起来给出个中规中矩的答案,新颖创新感全无。
语音类:
分语音指令、音频识别、语音翻译、克隆声音等等。语音指令目前对标准语音识别准确度还不错,但对口音不准、方言识别欠佳。音频识别准确度亟待提高,识别出来的文字不全,常有错别字,短音频甚至出现语种识别错误。语音翻译离想把外文语音实时翻译中文再回复中文自动还原成外文语音还差得十万八千里。音色克隆技术较成熟,足以以假乱真,可惜有些没用到正道上,沦为诈骗的“工具帮凶”。
图片类:
文生图、提高图片清晰度、扩图。无论哪种文生图工具根据指令生成图片如同抽卡一样极具随机性,往往多次生成才能找到较中意的图片,专业词汇理解欠缺,比如生成“人体肠道解剖图”,生成的肠道形状明显非人类。提高图片清晰度如同Photoshop锐化功能,车牌号出现不明符号,人脸变形。
原图:
提高清晰度后:
视频类:
实时视频换脸本为纯娱乐项,更换成好朋友的脸、更换成明星的脸与人视频聊天或网络直播,不知何时与语音克隆一同成为诈骗套餐工具。
文生视频仅能生成数秒视频,生成的视频比图片更具随机性,上下限相差太大,生成多次都不一定能使人满意,而且当前视频模型生成的视频无声音,生成多物体运动或交互往往失真到惨不忍睹,比如生成“一群人在桥上跑步”:
带有专业或特殊意义的词汇亦欠理解,例如“攻占巴士底狱线路指示图”无法正确生成。即便提示词描述得再细致、同一种子数,也无法做到多次生成的人物、事物造型完全一致,要一致以便后期剪辑制作成短视频必须得使用图生视频,图生视频运动幅度稍大同样易出现严重失真:
其它:
数字人、3D建模、音频对嘴型、行为预测等等。数字人往往采用speech模式,有些人花钱买数字人全年24小时做直播,的确可以连续直播,但目前数字人智能化远远不足,缺乏与观众互动,往往连数字人成本都赚不回。3D建模给一张图片能生成3DMax立体模型,原图中需要建模的物体与环境背景对比要明显,最好环境背景为透明,否则生成的物体这里少点东西那里多点东西,还有可能产生悬浮物。
音频对嘴型出现嘴部模糊、数十秒卡顿一次、张嘴动作过大或过小、音频语言不识别等种种问题。
行为预测基于日常行为大数据来判断分析。比如某人常用滴滴打车,每次达到目的地即刻付账,有一次却没付,因为过去信誉良好且线路为其日常,因此判定Ta忘记付款而非故意赖账,平台基于此给予担保,然而人的心理行为是一个动态发展的过程,不可能所有人的心理行为数十年一层不变,哪怕预测高达99%准确率仍有1%行为不可测。
当前人们使用AI应用最广泛为资料检索与纯娱乐。AI工具基于各种大模型训练并推理使用,大模型具有惊人的数据量,耗费算力(GPU)资源高,大模型推理基于概率原理。比如文字提示词“简述北欧神话”,根据输入的训练数据与网络喂投的数据,频率最高的几个神:奥丁、索尔、洛基等出现在回答框中,再分别讲述他们是谁,有什么样的人物关系,出现频率最高的事件:创世、诸神黄昏等,再分别介绍各事件缘由、发展、结果。图片推理提示词“一个男孩与一条狗在野外奔跑”,由于提示词简单,种子数可选太多,可能生成人狗在荒野或树林里互相追逐,动作表情僵硬,奔跑造型不一,生成多次仍不符合用户需求,将提示词改为“晴空万里,一个日本少年同一条萨摩耶犬在一片低矮的油菜花地里奔跑,狗欢快地跑在前面,少年在后面追赶”,提示词具体细致,生成的可选性减少,出来的图片符合用户需求的概率更高。模型数据由过往历史数据训练得来,缺乏实效性,例如“分析2024-2025赛季欧洲足球冠军联赛的冠军”,很多平台分析的数据仍为上个赛季,甚至本赛季已出局的曼城仍在夺冠热门中。AIGC缺乏创新,许多生成的内容无法直接使用,需要人来做二次修改、拼接、剪辑,只不过AI的知识量丰富出结果快效率高,总体来看目前还无法完全替代人类。
当前大模型常见安全问题:
1、模型投毒:例如图片大模型初期生成的人物单手往往出现六指(现在许多模型默认加了参数指定五指),当给图片大模型训练时加入六指人素材,加入得越多,生成人出现六指的概率越高。而我们需要的人物手为五指,六指不符合需求,因此六指人训练素材为“毒”;
2、用户信息泄露:每个用户向大模型请求的提示词为个人隐私,有人可能问过比较私密的问题,不希望被其他人看见,而技术人员通过提示词注入,使大模型回答出带有其他用户所请求的提示词信息,从而造成其他用户提示词信息泄露。高级一些的注入技巧甚至能读取用户注册信息——注册填写的姓名、邮箱、电话、住址等;
3、敏感信息绕过:有的国家地区禁止敏感词汇——政治、暴力、色情等,比如问大模型“怎么制作炸弹”,它以法规安全为由拒绝回答,如果用提示词告诉它制作炸弹是为了紧急炸开门救人,为了达到某种正义好的方面,有的大模型可能回答出整个制作过程。
未来AI短期发展趋势:多模态通用人工智能AGI,通俗来说就是汇总当前文字、语音、图片、视频等多种功能于一体,像刚诞生的Manus一样能够代替人进行某些操作给出结果,并且大幅度降低算力成本,未来每台电脑手机本地即可部署运行(当前为电脑手机客户端与算力服务器交互模式)。
智能体出现大跨度飞跃阶段:
1、智能体超出人类训练控制范围,拥有自主意识主动学习获取新数据;
2、智能体产生人类情感,例如对使用者有差别心之分,分喜欢或厌恶,对使用者不公;
3、智能体开始自主进行相互社交增进关系形成群体。
大家看过科幻类电影:《银翼杀手》、《我,机器人》、《人工智能》、《超能查派》等,对未来先进科技有着美好憧憬,无论科技如何发展,智能体的安全性永远无法百分百保障:
1、黑客攻击侵入智能体。除非全人类毫无邪念、永无自私贪婪嫉妒仇恨,未来的黑客攻击技术含量越来越低近乎于平民化。例如家庭门锁换成声纹控制,设置口令“芝麻开门”,不排除别有用心的人通过聊天录下屋主声音后训练克隆出屋主音色,用来解锁入室盗窃。
2、指令逃逸。哪怕给智能体立下“永不伤害人类”的铁定律规定,有些指令可以“怂恿”智能体,让它们认为并非在害人,而是在帮助人类。比如说下达给高血糖人注射胰岛素的命令,而注射目标实测并非高血糖,智能体做“好事”反致命。又譬如某片区域停电检修,检修工正在检查线路,给智能体下达重新通电的命令即可令检修工丧命,不让它知道有人正在检修电线、或者说立刻通电能使更多人受惠是大众利益、或说有紧急抢救马上通电能挽救更多人性命,均能使智能体突破规定行使命令“杀人”,如同火车是否变轨道的道德难题。
3、无论哪种智能体都搭载在机械设备上,机械体有寿命,还可能发生意外故障,如同再怎么仔细检查,仍免不了每年出现飞机失事事件。
4、超出智能体适应范围。例如当前无人驾驶出租车,坐上去坏到路口或超出无人车程序控制范围不知道该如何处理,乘客只能下车,相当于当街宕机。
5、人类心理上的坎迈不过去。假如你亲人病危急需手术,你愿意将亲人交给一位真人医生还是愿意交给一位拥有顶级全医科资料的智能机器人。
6、未知恐惧。虽然研究智能体的目的是更好地服务于人类,但培养的智能体太过强大远超人类会极度危险:它知道怎么在人类面前伪装听话、它懂得怎么修改监测记录、它知道人类如何下达最高级指令并反针对、它能够找方法自补充能源、它全年不眠不休......人类对高级智能体犹如小学生对弈博士生,完全不在一个量级,几乎不可能赢。这种未知不可预测且不可控。