AI书籍

《AI 3.0》第三部分 08 强化学习,最重要的是学会给机器人

2024-03-15  本文已影响0人  银河星尘

第三部分 游戏与推理:开发具有更接近人类水平的学习和推理能力的机器

08 强化学习,最重要的是学会给机器人奖励

奖励

驯兽师最重要的驯兽方法其实非常简单:奖励其正确的行为,忽略其不正确的行为。
这种经典的训练技巧,在心理学上被称为操作性条件反射,已经在动物和人类身上应用了数个世纪。操作性条件反射使得一种重要的机器学习方法——强化学习得以出现。

强化学习与监督学习方法形成了鲜明的对比:

训练你的机器狗

假设我们想要教一只机器狗最简单的足球技巧:当面对球时,走过去,踢一脚。

传统的人工智能方法将会使用显式规则来对机器人编程:

显式规则的困境:
想让机器人变得智能,手动设定它的行为规则就会越困难。现实世界充斥着难以预测的边缘情况,设计出一套适用于任何情境的规则是不可能的。

强化学习的愿景是:

智能体在一个给定时间和地点上的状态是智能体对其所处情境的感知。

假设机器狗“罗茜”出厂的时候预装了以下功能:如果一个足球在它的视线内,它能够估计出接触到球所需的步数,这个步数被称作它的状态。

罗茜是智能体的一个最简单版本,其状态是一个单一的数字。当我说罗茜处于一个给定的状态x时,指的是它目前估计自己距离球有x步远。

罗茜还要有它可以执行的三个内置的动作:前进一步、后退一步、踢一脚。如果罗茜碰巧走出了边界,程序设定为令它立即往后退一步。根据操作性条件反射的要求,只有当罗茜成功踢到球时我们才给它一个奖励。需要注意的是,罗茜事先并不知道哪些状态或行为会带来奖励。

我们给它的奖励只是一个简单的数字,比如说10,并添加到它的“奖励内存”中。我们把奖励给机器人的数字10等同于给狗喂的食物。与真正的狗不同,罗茜对于奖励、正数或其他任何事物都没有内在的渴求。

在强化学习中,一个人工创建的算法将指导罗茜的学习过程以帮助它获得奖励,即算法会告诉罗茜如何从它的经验中进行学习。

强化学习是通过使罗茜在一系列学习片段中采取动作来实现的,每个学习片段都包含一定数量的迭代。

学习片段是指智能体在特定环境中执行某个策略从开始到结束的完整过程。

在每次迭代中,罗茜会先确定当前的状态,然后选择要采取的动作。

如果罗茜获得了一个奖励,它就会学习到一些东西。

每一个片段会持续到罗茜成功踢到球为止,那时它将得到一个奖励。这可能需要花费很长时间,就像训练一只真正的狗一样,我们必须要有耐心。

开始时,教练将罗茜和球放置在球场的某个初始位置,罗茜面对着球。罗茜判定自己目前的状态为:距离球12步远。

由于它还没有学到任何东西,所以目前还是一张纯洁的“白纸”,不知道应该选择哪个动作,所以它从前进、后退、踢球这三种可能的动作中随机选择了一个。

我们假设它选择了后退并且后退了一步。虽然我们可以看出后退不是一个好的选择,但请记住,我们要让罗茜自己(强化学习)想办法完成这项任务。

在第2次迭代中,罗茜判定了它的新状态为:距离球13步远。然后它又随机选择了一个新的动作:前进。

在第3次迭代中,罗茜判定它的新状态为:距离球12步远。它又回到了原点,但罗茜甚至不知道它以前曾处于这种状态过!

在最原始版本的强化学习过程中,智能体不记得它之前的状态。一般来说,记住以前的状态可能会占用大量的内存,而且事实证明这并无必要。

在第3次迭代中,罗茜再次随机选择动作,这次选择的是踢球,但因为它并没有踢到球,所以它没有得到奖励。它还没有学到:只有踢到球时才会得到奖励。

罗茜继续选择随机动作,在没有任何反馈的情况下,迭代多次。终于在某一时刻,让我们假设是在第351次迭代中,仅仅是由于偶然的运气,罗茜来到了球的旁边并且选择了踢球这个动作,这个片段才算结束。于是,它得到了一个奖励并从中学到了一些东西。

罗茜学到了什么?在这里,我们采用最简单的强化学习方法来说明:

一次性学习太多对其可能是有害的,如果罗茜在离球2步远的地方踢了一脚,我们不想让它学习到这一无效的踢球动作实际上是获得奖励的必要步骤。

从人类的角度来看,我们常常会有一种“迷信”,即认为某种特定的行为将能帮助引发特定的好的或坏的结果。

强化学习的一个关键概念是:

强化学习的目标是:让智能体自己学习并获得能对即将到来的奖励进行更好的预测的值,前提是智能体在采取相关行动后一直在做正确的选择。习得给定状态下特定动作的值通常需要经过许多次的试错。

这是一种被称为“值函数学习”(value learning)的强化学习方法,但并不是唯一可行的方法。还有一种被称为“策略学习”(policy learning)的强化学习方法,其目标是直接学习一个给定状态下要执行的动作,而非首先学习如何获得更优动作的值。

罗茜在其计算机内存里用一个大表格对各种动作的值进行追踪,

第一个片段
当罗茜在第一个片段的结尾因踢到球而获得奖励时,踢球这一动作的值在“0步距”状态下被更新为10,即奖励的值。之后,罗茜在处于“0步距”状态时可以查看Q表,发现踢球这个动作的值最高(预示着最高的奖励),于是它选择踢球而不是随机选择一个动作,这就是“学习”在这个过程中的全部含义!


罗茜在强化学习第一个片段后的Q表

第二个片段
直到罗茜漫无目的地碰巧走到距球1步的位置,又碰巧选择了前进,这时,罗茜发现它的脚靠近球了,并且Q表有对这种状态的说明——在它当前的状态(离球0步距)下执行一个动作(踢一脚球)预计将获得10的奖励。

Q表现在告诉罗茜:在距球0步的状态下踢一脚球确实是非常好的选择,在距球1步的状态下执行前进的动作也几乎同样有利。当下一次罗茜发现自己处于距球1步的状态时,它将获得一些有助于判断应该采取哪种动作的信息,并可以将当下的上一步动作,即在距球2步远的状态下执行前进的动作的值进行更新。需要注意的是,这些新学到动作的值要随着步距的增加而递减,并比直接获得奖励的动作的值更低,这样才会使系统学习到一条获得实际奖励的有效途径。

强化学习持续进行,Q表中的值也逐步得到更新,一个片段接一个片段,直到罗茜最终学会从任意初始点起步都能完成踢球的任务。Q学习算法是一种为给定状态下的动作赋值的方法,包括那些不直接获得奖励但能帮助智能体经历相对较少的状态就获得奖励的动作。

“训练罗茜”的例子涵盖了强化学习的大部分要点,但省去了强化学习研究人员在处理更复杂的任务时会面临的许多问题。例如,

设计成功的强化学习系统仍然是一种很难的但有时却很赚钱的技巧,只有一小部分像深度学习领域的同行一样,花费大量时间调节超参数的专家才能掌握。他们往往需要考虑以下问题:应允许系统学习多少个片段?每个片段应允许多少次迭代?一个奖励在系统中进行反向传播时应该被“打折”多少?

现实世界中的两大绊脚石

首先是Q表,

第二块绊脚石是,在现实世界中,使用真的机器人通过许多片段来真正地执行学习过程的难度很大,甚至已经被我们简化了的罗茜案例也不可行。

强化学习的实践者几乎都会构建机器人和环境的模拟,然后在模拟世界而非在现实世界中执行所有的学习片段,我们都是这样来处理这个问题的,有时这种方法很有效。
机器人能够在不同程度上成功地将在模拟世界中学到的技能转移到现实世界中。
然而,环境愈复杂和不可预测,将机器人在模拟中学到的技能转移到现实世界的尝试就愈加难以成功。由于这些难点的存在,迄今为止强化学习最大的成功不是在机器人领域,而是在那些能够在计算机上进行完美模拟的领域。目前,强化学习最知名的成功是在游戏领域。

《AI 3.0》读书笔记
《AI 3.0》读书笔记 序1
《AI 3.0》读书笔记 序2
《AI 3.0》读书笔记 序3
《AI 3.0》读书笔记 译者序
《AI 3.0》读书笔记 第一部分 若想对未来下注,先要厘清人工智能为何仍然无法超越人类智能01
《AI 3.0》读书笔记 第一部分 若想对未来下注,先要厘清人工智能为何仍然无法超越人类智能02
《AI 3.0》读书笔记 第一部分 若想对未来下注,先要厘清人工智能为何仍然无法超越人类智能03
《AI 3.0》读书笔记 第二部分 视觉识别:始终是“看”起来容易“做”起来难 04 何人,何物,何时,何地,为何
《Ai 3.0》读书笔记 第二部分 视觉识别:始终是“看”起来容易“做”起来难 05 ConvNets和ImageNet,现代人工智能的基石
《AI 3.0》读书笔记 第二部分 视觉识别:始终是“看”起来容易“做”起来难 06 难以避免的长尾效应
《AI 3.0》读书笔记 第二部分 视觉识别:始终是“看”起来容易“做”起来难 07 确保价值观一致,构建值得信赖、有道德的人工智能
《AI 3.0》第三部分 游戏与推理:开发具有更接近人类水平的学习和推理能力的机器

上一篇 下一篇

猜你喜欢

热点阅读