30分钟,略懂人工智能(视频文案)

2024-12-16  本文已影响0人  做个有良心的用户名

大家好,我们都知道,从2022年openAI推出chatGPT开始,AI领域可谓迎来了一次前所未有的大爆发,在短短不到两年的时间里,类似GPT的大语言模型、以及AI作图、AI数字人、甚至AI影片制作等等的黑科技产品都相继诞生,一瞬间,AI仿佛变得无所不能。与此同时呢,不光AI产品迎来了大爆发,AI的用户群体也迅速从原来的专业人士,普及到了我们普通百姓群体,现在义乌的那些小商品批发商,别看人家学历普遍不高,使用AI做其营销来,那是一个六的起飞!

每当我和朋友聊到AI这个话题时,我发现,大家通常会有这么几个疑问:

第一,AI领域到底出现了什么开创性的技术,启动了这两年AI行业的高速发展;

第二,AI领域的关键词,也太多了吧,从目前最耳熟能详的大语言模型,到lora、stable diffusion、智能体,再到神经网络、强化学习、决策树、随机森林等等。这些关键词的背后,到底蕴藏着什么样的原理呢,以及这些关键词之间,到底有着什么样的关联呢?

第三,也是最重要的,在这波势不可挡的人工智能浪潮下,你我这样的普通人,到底有哪些新机会,应该关注哪些新方面,来实现我们自身收入或职业生涯的提升呢?

别着急,本期视频将会从人工智能发展演化的视角,来帮助各位逐一回答上述问题,我会首先通过AI技术的阶段性演化,来帮助各位观众梳理所有AI主流关键技术背后的原理以及它们之间的关系。相信我,这一定是全网最全最易懂的。然后我会分析,为什么大语言模型的成功,造就了这波AI发展的浪潮。最后我会从科研、工程、应用,三个方面,来分享我认为的,在这波AI浪潮下的,我们的就业或者创业机会。

需要说明的是,本期视频是通识导向,所以在内容方面,着重于容易理解,那就可能会忽略一些数学或专业术语方面的严谨性。如果各位对视频内容的数学推导细节感兴趣,我在评论区会推荐一些硬核博主,供各位深入学习。

好的,让我们正式开始本期的内容吧。

在开始介绍人工智能技术的演化前,我们首先要给人工智能下一个定义,虽然人工智能的技术,经历了长足的发展,但人工智能的核心定义却始终比较固定,就是经典的图灵测试所阐释的,如果面对一个问题,人类给的回复和机器给的回复无法区分,那就意味着,机器具备了智能,也即人工智能。换一种说法,人工智能就是让计算机形成像人类一样的思考与决策能力。

我把人工智能技术的发展,分为四个阶段,分别是“把人类知识和经验程序化的阶段”、“用数学算法让机器从数据中总结规律的阶段”、“用神经网络自主发现解决具体问题时的思路的阶段”、以及“用大语言模型初步实现通用人工智能的阶段”。这里需要说明一下,目前对人工智能阶段的划分,并没有全球范围内公认的方式,我在这里的划分方式,是以技术路线或者说技术思路产生较大的跃迁作为分割的,以便帮助大家更好的去理解。

好,那我们逐一来展开一下。

第一个阶段的人工智能技术路线,也就是“把人类知识和经验程序化的阶段”,这个阶段的人工智能主要是通过编程,把人类对一件事物精准的判断依据或者决策步骤,通过程序和算法,固化到计算机中。

最典型的,就是早期的专家系统。比如天气专家系统,它会把每种天气对应的环境特征都一一对应的记录下来,阴天加上湿度超过70%,与下雨对应了起来,那么,当这个天气专家系统发现当前环境是阴天,并且湿度已经超过了70%时,它就会做出判断——要下雨!

再比如医疗专家系统。真正的医学家,会把他们知道的所有症状的组合,和具体的疾病,以及疾病的治疗方法一一对应的存储在计算机中。然后,如果有人在这个医疗专家系统中,输入对应的病状,专家系统就会给出对应的诊断和治疗方案。

这一阶段的人工智能,其实更接近“自动化”这个概念,输入什么,得到什么样的输出,是完全事先由人类根据知识和经验,通过穷举的方式,确定好的,一旦输入不在事先设定的范围内,智能就会立即失效。这种粗糙的技术模式,决定了这一阶段的人工智能的应用范围非常有限。

相信各位观众不难发现,第一阶段的人工智能,其实本质是复刻人类的知识和经验,人类知识经验的边界,就是这一阶段人工智能能力的边界,于是人们就在想,是否可以让机器,从提供的数据中,自己去总结出经验和知识呢?

于是,人工智能的第二阶段开始了,也即——“用数学算法让机器从数据中总结规律的阶段”。细心的观众可能会发现了,让机器从数据中总结规律,这不就是机器学习么。

非常正确。从第二阶段开始,机器学习这个概念,正式开始走上了历史的舞台。事实上,后面所有的发展阶段,都是对机器学习方法的变革,无论方法如何变革,让机器从数据中发现规律,这个机器学习的基本范式,至今也没有发生过变化。

那么,人工智能第二阶段中,用到的机器学习方法,有什么特点呢?

它的特点就是,让机器按照人类设定的思路,去发现数据的规律。

我来列举第二阶段中几种经典的机器学习方法让大家感受一下。

第一种,线性回归法。当我们知道输入数据和输出数据,有可能存在线性对应的关系时,就会比较适合使用到线性回归法,来预测新输入出现时,输出的值可能是多少。比如我们得到一个城市里很多对房屋平米数与总价之间的成对数据,我们就可以找到一条直线,使所有实际的平米与总价数据的坐标点,到这个直线的距离之和最小,它的物理意义就是,当出现一个新的房屋价格或面积数据时,带入这条直线对应的方程,得到的结果,与真实数据是最接近的。

有眼尖的同学可能会发现了,这不就是拟合吗,没错,线性回归法的本质就是拟合。

我们发现,使用线性回归法,是我们先给了机器一个思路,也即——输入输出的关系是线性的,然后再让机器在这个人类给定的思路上,去学习。

好,我们再看第二种,决策树系列算法。决策树系列算法试图通过已知的条件输入和最终决策结果数据对儿,来训练计算机,让计算机学习到人类的决策思路。

比如决策买房的这个过程,我们的考虑因素会包括总价、地段、面积、户型等等。当一个条件满足时,再去考虑下一个条件的情况。那么,哪个条件会被放在优先的位置进行考虑呢,这就是机器通过实际的条件与决策结果的成对数据,得到的学习结果。这个学习过程,人类也为机器设定了一种思路,叫做条件商算法,这个方法的现实含义,就是算出当决策结果发生时,哪些条件出现的次数最多,就把这个条件作为最重要的决策因素,然后用同样的方式,找到次重要的、第三重要的,直到把所有条件罗列出来,形成一个树状的结构。

有细心的观众可能注意到了,我这里用的是决策树“系列”算法,这个系列,指的是包括随机森林在内的一些列对决策树的优化算法。

决策树系列算法可以说是神经网络以外运用的最为广泛的机器学习方法,它至今还在被广泛用于消费者行为预测等等领域。

好的,前两种机器学习方法的学习数据或者说训练数据,是一对一对的输入与正确的输出组合,这种用有标准答案的成对数据进行学习的方式,叫做有监督学习。但有的时候,我们不需要根据输入的数据得到某种输出,而只是需要发现数据之间的区分,并且在输入一个新数据时,能够把新数据划分到正确的分类中。这就是我们要讲到的第三种机器学习方法——无监督学习。

比如我们输入一些列食品的特征数据,有苹果(甜、水分、需要清洗、无需烘烤、红色)、梨(甜、水分、需要清洗、无需烘烤、黄色)、花生(香、干燥、无需清洗、需烘烤、红色)、瓜子(香、干燥、无需清洗、需烘烤、白色),显然苹果和梨的特征更加接近,花生和瓜子的特征更加接近,在无监督学习的过程中,通过经典的K均值算法,可以自动实现将特征更接近的数据划归为一类。然后,当输入一个新数据时,比如香蕉(甜、水分、无需要清洗、无需烘烤、黄色),再调用K邻居算法,就可以让这个数据自动找到它最匹配的分类,并归入分类,于是,就完成了无监督学习的分类过程。这里面的K均值和K邻居算法就是我们给机器的学习思路。

好的,相比于第一阶段的人工智能完全复刻人类知识经验的方式,第二阶段的人工智能,只给机器一个思路,然后让机器自己从训练数据中发现知识和经验。那么问题来了,很多时候,人类也并不知道输入数据与输出数据之间可能的关系,也就是没办法提前把学习思路告诉机器,这个时候,基于神经网络的机器学习算法便悄悄的走入了人工智能学界的视线,也带领人工智能进入了第三阶段的发展,即——“用神经网络自主发现解决具体问题时的思路的阶段”。

神经网络机器学习的核心思路是模仿人类大脑的运转。人类大脑中有众多的神经元,每个神经元在接收到输入信号后,会根据刺激的强弱,决定向下一个神经元传递的信号强度,最后一层神经驱动人类做出思考结果,如果思考结果是错误的,所有神经元会调整彼此间的信号传递强度,直到得到正确的答案,并记住这个传递过程,在下次遇到类似问题时,直接激发相同的神经配合。

神经网络机器学习,通过感知器来模拟神经元,每个感知器会接收到一系列输入数据,这些数据类比于神经元接收到的刺激信号,可以是一句话中的所有字,或者是一张图中的所有像素等等。然后这些输入会按照右边的公式计算出一个值,这个值类比于神经元接收到输入后产生的刺激强度。这个值通过激活函数生成向下一个感知器传递的数据,类比于一个神经元向下一个神经元传递的信号强度。一层上的多个感知器类比于大脑中同一区域的多个神经元,多层感知器的协作,类比于大脑不同区域的神经元之间的协作。当最后一层感知器输出的结果和用来训练的数据中人工给定的正确结果有差异时,通过反向传播梯度下降算法,可以逐层修改每一个感知器中的参数来调整感知器之间传递数据的大小,类比于人脑根据结论是否正确,来调整神经元之间信号传递强度,最终固化一组可以正确得到输出的感知器参数。这个正确的输出,可以是对一句问话的答复,也可以是对一张图相内容的识别等等。

人脑的神经建立彼此间正确的信号传递强度的过程,可以理解为人类对某件事形成了正确的思路的过程,而人工的神经网络通过调整感知器中参数来得到和人类相同的答案的过程,则可以看作在试图模仿人类处理这个问题的思路。

通过理解神经网络机器学习的过程我们会发现几个问题,第一,就是神经元每层的数量以及总的层数,以及层与层之间的连接关系,亦或是神经间根据输入信号内容生成传递强度的方式,是否如我们假设的计算方式一样,这些都是悬而未决的问题,同时,我们的眼睛、耳朵等器官给大脑带来的输入是否与我们输入给计算机的字符、图像像素这样的输入形式相同呢,也是值得考究的问题。于是,就有了一系列对神经网络机器学习方法的优化。

比如,优化图像输入信号的卷积神经网络,和优化语言处理的循环神经网络。前者是模拟人眼观察事物时,首先会提取事物的关键特征,而不是采集全部信息的特点。后者则是模拟人类处理语言等有先后顺序的数据时,会充分考虑上下文再做出判断的特征。

再比如,增强神经网络可以模拟人类在制定决策时,通过奖励和惩罚来快速修正策略的机制,这也是阿尔法狗的核心原理。

对抗神经网络则是模拟人类自己审视自己结论的方式,来提高结论的正确率,最典型的应用,就是早期的AI作图,也叫做生成式对抗网络GAN。

扩散模型是与GAN几乎同时期提出的另外一种AI作图方案,它是模拟人类看到图像后,在脑海中会逐渐模糊,然后需要绘画时,再唤醒并画下来的过程。哎,讲到这里,我们先剧透一下,因为有的小伙伴可能会发现了,扩散模型,不就是diffusion modle喽?那和我们当下最火的AI作图软件stable diffusion是什么关系呢?事实上,stable diffusion生成图片的核心原理,就是扩散模型,但你会发现,前面还有一个stable。从扩散模型诞生,到stable diffusion引领AI绘画新时代,这个增加的stable,用了整整五年的时间,而且是脱托大语言模型的福,才实现了这个突破,这里我先不展开了,后面在第四阶段时,会重点给各位讲到。

好,回到第三阶段,虽然这一阶段的人工神经网络已经被证明可以在特定问题上,实现和人脑类似的智能,并且具有思考速度方面的巨大优势,但它有一个严重的缺陷,就是,一个训练好的神经网络通常只能解决某些特定的问题,比如能够识别图像的神经网络通常无法理解或续写语句,这也导致人工神经网络并没有形成真正意义的通用智能,也就是AGI这个概念,换一个更形象的角度来说,人工神经网络模拟人类的思路,在第三阶段,只能模拟处理特定问题的思路,而不能像真正的人类大脑一样,不断学习处理所有问题的思路。

但是,当大语言模型出现并完善后,一切再次发生了转机,这也标志着人工智能领域,进入了第四阶段——“用大语言模型初步实现通用人工智能的阶段”

我们前面说到,神经网络的诞生与AGI之间,差别是计算机只能对一个思路进行学习,还是可以同时学习所有的思路。那么,为什么以chatgpt为代表的大语言模型出现后,实现了这个跨域呢?原因就在于这两个字——语言。

大语言模型,其实也是神经网络众多垂类应用的一环,叫做自然语言处理,也叫NLP。也就是说,其它神经网络模拟的是人类做某件具体的事情的思路,而大语言模型,模拟的是人类说话的思路。

好巧不巧的是,人类说话的思路,恰恰隐藏了做任何事情的思路。

维特根斯坦曾经说过:语言的边界,就是认知的边界。也就是语言中,隐含着人类一切的认知与思想。当机器可以模拟人类的一切语言时,也就拥有了人类的一切智慧。

我们可以想象一下,经常说一些狗的智商达到了人类6岁甚至更高年龄小孩的智商,这是从大脑能力上来说的,但为什么哪怕是最聪明的边牧也根本没有展现出哪怕三岁小孩的理解能力呢?原因就是,语言,因为犬类没有办法通过语言来把做万事万物的思路抽象起来并传承下去。而大脑能力远不及边牧但拥有更强语言能力的土拨鼠群体,则展现出更强的智慧。

我们也可以做一个简单的实验来证明一下事实上是语言承载了我们全部的智慧。我们可以想象一下,当你思考一件事情的时候,实际上,你是在脑海中以语言的形式自我对话,来完成这个思考的过程,这也进一步说明了,语言,是一切智力和思路的载体。

所以,当机器能模拟人类说话时,机器就形成了与人类近似的语言能力,也就形成了与人类近似的通用智慧。

这就是为什么大语言模型出现进步后,让AGI越来越近的走进了人类。

有观众可能会问,机器模仿人类说话,终归是模仿,它们能理解我们语言背后的含义吗?我要说的是,人类学习说话,其实也是从模仿开始的,一个婴儿,说对了,能得到自己想要的,说错了,家人没反应,他就要通过不断观察周围人什么话之后通常是什么话,来决定自己应该说什么,这个过程中,他一开始根本就不知道自己这句话的含义是什么,这就是一种无脑的概率模仿,通过模仿学会了语言,通过语言获得了智慧。

可能又有观众要问了,为什么自然语言处理技术出现这么多年了,偏偏近两三年实现了飞跃,到底发生了什么新的状况?

那是因为,早期的NLP技术,就做到概率模仿这一步,模仿的并不好,也因此没有获得智慧。

我们想象一下,随着婴儿长大,他发现,同样的一句话,如果更前面的话的内容不同,哪怕面对同一句话,做出的回应,也会不同,这就是上下文、潜台词的作用。以chatgpt为代表的大语言模型正式在这方面进行了强化,openAI通过注意力机制,把输入的语言中的任何一个字或者一个词,都和前后文的字或词关联在了一起,重新定义这个字或词的含义,然后再去预测下一个字或词,就会发现,模仿效果得到了质的飞跃,这就是近些年大语言模型快速发展的核心原因。

我们都知道大语言模型的核心理论来源于谷歌一片论文中提到的transformer技术,而这篇论文名称的中文翻译,就叫做——注意力机制,是你唯一需要的。

那么,网友又要问了,语言模型实现了飞跃,承载了通用的智能,那么这个智能,要怎么转化到其它领域呢?

还记得我们前面在讲解扩散模型时曾经挖了个坑吗,我们现在就来填这个坑。我们以AI绘画为例,来讲解大语言模型,是如何把通用智能赋予其它人工智能领域的。

传统的AI绘画,无论是扩散模型还是GAN,其原理的核心,都是让机器模拟生成和训练数据类似的图,这个类似度非常高,以至于传统的AI作图更多是模仿,而不是创造。我们知道,作画这件事,通常是把我们脑中的想法画出来,而不是看着什么去画类似的东西。所以,如果能把我们脑海中的想法,和生成的画作建立联系,那AI绘画这个领域就真的能实现飞跃了。

现在我们知道了,这个飞跃已经实现了,我们现在的AI作画,就是把脑海中的想法通过语言,来告诉stable diffusion或者midjourney之类的软件,就能实现创作了。

哎!关键词出现了,又是——语言!

我们想象一下,如果把每张图像,当作对它的描述的语言的回复,那么,既然大语言模型可以通过学习已有的语句,来应对新的上文语句来生成合乎情理的下文语句,那么,当我们把图像作为下文语句来训练机器时,它就也应该能够根据新的上文语句,也就是对图像的描述,来生成合理的下文语句,也就是我们想要的图像。这,就是当前AI作图工具的核心机制。只不过,由于要生成图像,我们需要把大语言模型的输出,加上一个用来生成图片的扩散模型。

AI作曲也是一样的道理,只不过是把对已知乐曲的描述作为上文进行训练,把乐曲作为下文进行训练。然后在大语言模型的后面,加上一个类似扩散模型作用的音频生成模型。

AI作一切,都可以套用这个模式,把要生成的东西的描述当作上文,要生成的东西,当作下文。于是,AI不仅能生成文字,也能生成图片、音频、视频了,这,就是所谓的多模态输出。

当然,让AI生成某个模态的信息,你也可以用文字以外的模态,比如把音频、视频、图像作为输入,或者和文字混合使用,毕竟,这些信息进入到计算机以后,都是一视同仁的数字,只不过增加一层用于模态间进行转化的模块即可,这就是多模态输入的概念。

简单总结一下,在AI发展的第四阶段,大语言模型的出现,让AI能够通过学习人类语言的思路,来形成对万事万物的思路,这是语言与人类智慧之间的关系决定的。把大语言模型中的语言广义化,扩展到图像、声音、视频等等模态,就促成了AI处理和生成多模态数据能力的一次飞跃,形成了类似人类的,把各种类型数据作为输入,又能面向各种问题进行分析与决策,然后输出各种类型数据的能力,也就是我们说的,通用人工智能AGI的雏形。

好的,人工智能从提出到如今的发展阶段我就介绍完了。我还想稍微做一点阶段的延展。人工智能发展的第四阶段标志着AGI的雏形初步生成,虽然是雏形,但人们已经开始迫不及待的想要向第五个阶段,也就是智能体时代迈进了。

智能体不但拥有人类的通用思考与决策能力,还具有记忆能力,也即RAG的概念,同时还能操纵各类互联网或软件工具。智能体会成为一个一个的虚拟服务者或服务团体,或是虚拟员工,来将人类从基础性的工作中解脱出来,甚至与人类共同进行创造性的工作。智能体甚至能够形成虚拟的社区,完全脱离人类去自我管理和运转,比如一部分智能体分析人类对食品、服装或某些方面的需求,另一部分控制生产设备进行投产,第三部分则管理销售与物流。智能体甚至可以拥有和人类一样的实体。怎么样,这么一说,是不是《我,机器人》、《底特律变人》这些科幻电影,立即就出现在眼见了。

当然,这些都是非常遥远的目标,但智能体绝对是当前最具有发展潜力的人工智能方向,同时也是人工智能概念的核心要义。

好的,前面说了这么多,我相信各位对AI技术的框架,在脑海中,已经形成了清晰的印象。那么,最重要的问题来了,在当前的人工智能浪潮下,有哪些岗位或者说发展方向值得我们关注呢。

那么,其实可以大致分为:科学、工程、与应用这三个方向。

首先科学方面,主要是指那些涉及到数学运算的部分,比如,神经网络应该有几层,层与层之间应该如何排列,激活函数怎么选择,参数要多少等等。这些优化,都是为了让神经网络能够更接近高效率的人脑。但按照openAI员工的说法,人工智能科学部分的内容,已经开发殆尽,留给我们更多的,是工程方面的空间。

所以我们第二个聊一聊工程方面。人工智能的训练,需要大量优质的数据,以及巨量的算力,如何能把网络上纷繁复杂的数据清洗为更适合人工智能学习的数据,以及如果通过各方面的优化,来降低人工智能所需的算力,或是扩展算力硬件的能力,这些都是人工智能在工程这个维度的重点方向。现在用来优化stable diffusion作图能力的lora技术,就是通过在传统生图的神经网络结构中,增加了lora层这一工程优化,来实现了用少量训练图片就能实现生图风格化的目标。

工程这个方向,非常适合在数学科学方面有充分基础,又希望致力于计算机工程领域的同学。新时代的程序员强烈建议充分考虑这个方向。

不过,我要想,对于大多数人来说,应用方面,才是我们把握人工智能时代机遇的关键方向。如果你是一个自由工作者,尤其是电商,百花齐放的AI工具可以显著提升你的工作或是营销效率,义乌小商贩们对AI的快速学习与应用,就是典型的例子。

对于企业来说,用智能体和工作流来重构企业数字化体系,是一个在全球范围内都非常火热的方向。如果你是一个企业的创始人或者高管,你应该开始重视这个过程,因为全球的竞争对手都在这么做,在这个效率导向的竞争环境下,如果在这个过程中落后了,很可能就意味着迅速丧失竞争力。

但这个过程并不简单,涉及到提示词工程技术、企业管理理念等等,同时由于与AI的交互类似于对人类的启发与管理,所以心理学、教育学等一系列在传统计算机技术领域根本不会涉及的交叉学科都逐渐开始成为学习和掌握的重点。

如果你是一个企业负责数字化转型的员工或急需提升部门运转效率中层管理者,你就应该快速补齐前面提到的跨领域知识,然后开始尝试使用智能体平台类工具,建立并不断优化与你的业务匹配的智能体工作流。

如果你是一个创业者,那么,你可以考虑做通用的智能体工作流平台,如coza、dify等等,又或者做一些垂类的智能体工作流产品。

又或者你也可以像我一样,致力于为企业提供智能体工作流建立的咨询、培训、以及实践服务。

好了,本期节目比较长,帮助各位通过AI的发展,了解了AI技术的全貌与可以投身于的方向,后续我也会不定期开展本期视频中一些专项内容的深挖,希望各位喜欢,也希望各位一键三连,并留下自己宝贵的意见,谢谢。

上一篇 下一篇

猜你喜欢

热点阅读