从零开始强化学习(六)——模仿学习
模仿学习(imitation learning,IL)
又叫做示范学习(learning from demonstration)
,学徒学习(apprenticeship learning)
,观察学习(learning by watching)
。在模仿学习里,根据一些专家的示范使机器可以跟环境互动,但无法从环境里面得到任何的奖励,只能看着专家的示范来学习什么是好,什么是不好。其实多数的情况,任务的确无法从环境里面得到非常明确的奖励。虽然没有办法给出奖励,但是收集专家的示范是可以做到的。举例来说:
- 在自动驾驶汽车里面,虽然没有办法给出自动驾驶汽车的奖励,但可以收集很多人类开车的纪录
- 在聊天机器人里面,可能没有办法定义什么叫做好的对话,什么叫做不好的对话。但是收集很多人的对话当作范例,这一件事情也是可行的
所以模仿学习的使用性非常高,假设不知道奖励,可以通过收集专家的示范,或者通过收集到一些强智能体(比如人)跟环境实际上的互动,即可使用模仿学习
这个技术,模仿学习主要包含两个方法:
行为克隆(behavior cloning,BC)
-
逆强化学习(inverse reinforcement learning,IRL)
或者叫做逆最优控制(inverse optimal control)
一. 行为克隆
不同于监督学习,强化学习往往被用来处理复杂的决策任务;但由于决策空间巨大,强化学习需要不断地试错,因此样本复杂度(Sample Complexity)往往很高,从而限制了强化学习在一些场景中的应用。而模仿学习则是直接从专家样本中进行学习;由于有比较高质量的决策行为数据,模仿学习被认为是可以降低样本复杂度的一个手段。除此之外,模仿学习的一个重要应用是:有些应用(比如自动驾驶)决策行为的奖励函数很难定义,但是有一些高质量的决策示例(比如人类开车的视频)可以被用来模仿和生成类似的决策行为。
1.1 原理
考虑一个马尔科夫决策过程框架: :
- 和分别是(有限的)状态和动作空间
- 指定了环境转移概率
- 指定了奖励
- 是折扣因子
- 指定了初始状态分布
决策者的目标是寻找一个稳态策略来最大化累计奖励:
除此之外,在模仿学习里,我们假设有一个由专家策略收集到数据集,其中每一个状态动作对是由和环境交互产生的。因为如果假设专家策略的质量很高,所以目标变成了寻找一个策略来减小与专家策略的值函数差异
即期望能从专家示例中很好的恢复出专家的决策行为来使得决策者的值函数比较大
1.2 算法
行为克隆是一个比较基础的模仿学习方法。这个算法直接优化两个策略间的动作概率分布差异:
这里和分别是由策略产生的(折扣的)状态分布和状态动作分布。一般情况下的定义如下:
可以简单地将和理解为,一个策略访问某个状态或者状态动作对的"频率"。回到目标函数/损失函数,即一个简单的监督学习问题:数据分布由专家策略产生,我们期望使用最大似然估计,学习到一个最优的分类器(或者回归器)。这里说最大似然估计,是因为最小化KL散度等价于最大似然估计。如果损失函数的值很小,可以推断出学习者能够较好地模仿专家策略,从而在决策的时候有一个不错的值函数。下面详细地刻画这件事
1.3 分析
假设可以寻找到一个策略,其与最优策略的损失函数值小于给定的精度,那么可以证明,这个策略与专家策略的决策质量上有如下的保证:
可以看到,损失函数值越小,两者的值函数差异越小。但与此同时,这个差异是以的速度在放大。这个现象在模仿学习中被称作为复合误差(compounding errors)
:对于一个有效决策长度(以来衡量,越接近1,有效决策长度越长)的模仿学习任务,值函数值差异随目标函数值差异以二次方的速度增长。也就说:对于有效决策长度比较长的任务来讲,即使把目标函数优化地很小,值函数的差异依然可能很大
二. 逆强化学习
IRL的提出动机主要有以下两点:
- 多任务学习:蜜蜂是如何权衡飞行距离、时间、捕食动物威胁等多个任务下找到一个最优的飞行路径的?
IRL
针对的也是序列决策问题,并非是单步决策问题 -
回报函数:难以量化回报函数的领域
很多时候拿不到最优策略,但是获取最优策略的采样数据却是非常容易的。因此逆强化学习的流程如下所示:
- 智能体随机产生一个策略
- 智能体的策略采样得到的数据与专家数据采样得到的数据对比,学习奖励函数
- 利用所学的奖励函数进行强化学习,提高自身策略水平
- 策略差距较小则停止迭代,否者回到第二步
2.1 有限状态下的求解
假定最优策略为,其它策略为,有:
依据Bellman Equation有:
因此有:
这里我们想要求出奖励的函数方程,因此期望消去由:
可以消去得到:
如果假定专家数据为最优策略下的采样数据,则求取的奖励函数期望能够使得上述公式越大越好,上述推导则变成了一个线性规划问题:
上述线性规划问题的约束比较弱,回报函数可以成比例地扩大或者缩小同样能够满足约束,并且回报函数取0时也能满足约束,但这种情况实际上是没有意义的。因此考虑增加约束:
-
限制回报的范围: 。并且
Ng
认为在其它所有情况都相同的时候,回报函数的取值越小越简单也就越可取,可以选择在优化的目标函数上加上一个惩罚项,类似L1、L2正则化,都是为了防止参数过大(这里引入了另一个问题,参数的取值问题) - 只考虑最优策略和次优策略的差异:之前考虑的是最优策略优于其它所有策略,也就是以相同的权重考虑最优策略和其它策略之间的差距,但是最优策略和次优策略之间的差距会显得更加重要
引入这两个约束之后,原问题的规划变为:
之后去求解上述规划问题即可
2.2 无限状态下的求解
在无限状态空间下,奖励函数可以看作是一个从状态到回报的映射函数:
其中是将状态映射到低维空间。于是问题就变成了求解参数来确定回报函数,这里设定奖励函数为线性函数也是为了之后方便计算。如果状态被映射到一个维的向量上,那么求解回报就相当于进行如下计算:
值函数的计算方式可表示为:
其中表示某一维映射特征的累计值。最终目标同样是希望找到最佳的回报函数,使最优策略的价值最大化:
最终的求解目标为:
与之前有限状态下的求解有些许不同的地方在于:
- 这里无法考虑所有的状态,只考虑有限个状态
- 这里不是对回报函数做约束,而是对回报函数的参数大小进行约束,类似
L1范数
- 由于函数式模型可变量有限,所以并不能保证完美拟合真实的回报函数,模型就有可能违背约束条件的情形,因此需要将约束项转变成惩罚项
2.3 最大熵逆强化学习
最大熵逆强化学习(Max Entropy Inverse Reinforcement Learning)
,能够从多个满足限定条件的策略中寻找一个更合理的策略,论文:Maximum entropy inverse reinforcement learning
期望利用专家的行动轨迹学习一个回报函数,其中是状态的特征抽取,是回报函数的参数,如果回报函数与特征之间是线性关系,则可表示为如下形式:
此时某条轨迹ζ \zetaζ的累计回报可以写作:
假设所有的轨迹起始于同一个状态,将每一条轨迹聚合起来,就可以用这些轨迹得到价值期望的估计:
假定策略模型为,希望策略模型交互得到的轨迹的累计回报等于专家轨迹的累计回报:
由于等式两边相同,可以得到:
上述这个约束条件并不是很强的一个约束,满足这个约束的策略模型可能有很多,而这些策略在完整的问题空间中可能各有优劣,因此在完整的问题空间中仍然可能得到一个较差模型
最大熵约束:
这里就引入另外一个约束,最大熵约束。如果轨迹获得的累计回报比较高,那么策略应该以较高的概率出现这条轨迹,再依据最大熵模型可以将轨迹的概率可表示为:
其中。令动作序列为,则表示当行动序列确定时,状态最终转换成序列的概率为:
其中表示轨迹是否可以通过某一条行动序列生成,当这个值等于1时,表示轨迹可以通过行动序列生成,反之无法生成。将其近似为一个可解的形式:
最大似然法求解:
由此得到了模型对轨迹的概率,采用最大似然法进行优化,假定问题是确定的MDP
,对应的目标函数为:
与最大熵模型求解类似,先构建拉格朗日函数,然后求导,得到参数梯度的计算公式:
其中和这两项都显得有些复杂。考虑确定MDP
的问题,即行动可以直接决定下一时刻的状态。这样当初始状态、策略和回报函数确定时,未来的轨迹也就确定下来。所以将每一条轨迹的状态分别列出来,再将其中重复状态合并,将这些状态的概率与状态对应的特征相乘,得到的结果也是一样的:
其中称为状态访问频率期望(Expected State Visitation Frequency)
,根据策略和确定的状态转移概率推演,可以得到任意一个时刻状态出现的概率,之后将每一个时刻状态出现的概率加起来,即可得到
前向后向计算方法:
先通过反向计算求出策略模型,再进行前向计算得到状态访问频率期望:
设定在最后一刻所有状态的出现值为1,就可以计算时刻某个状态下执行某个动作的概率可以得到:
之前提到轨迹出现的概率和回报成正相关,于是可以使用回报替代概率值,得到:
令,公式就可以变为:
当时刻转到时,可以得到类似的结果:
这样就得到了一个迭代公式,随着迭代轮数不断增加,策略估计值会变得越来越稳定,越来越接近真实的策略,这样就可以完成策略的计算。拿到策略之后可以进行前向计算,得到每个时刻的访问频率