从零开始强化学习（四）——策略梯度

2022-06-24 本文已影响0人晓柒NLP与药物设计

四. 策略梯度(Policy Gradient)

4.1 期望奖励(Expected Reward)

在强化学习中有3个组成部分：演员(actor),环境(environment)和奖励函数(reward function)

演员就是一个网络，输入状态，输出动作
环境就是一个函数，输入状态和动作，输出状态。环境是基于规则的规则，是确定不变的
奖励是在某一个状态下采取某个动作能够获得的分数。环境是一个随机变量（因为状态和环境都是在一定分布下抽样获得的），可以计算的是奖励的期望值
一场游戏叫做一个回合(episode)或者试验(trial)
把这场游戏里面所有得到的奖励都加起来，就是总奖励(total reward)，称其为回报(return)，用R来表示它
演员要想办法去最大化它可以得到的奖励

在一场游戏里面，把环境输出的 $s$ 跟演员输出的行为 $a$ ，把 $s$ 跟 $a$ 全部串起来，叫做一个Trajectory(轨迹)，如下式所示：
$\text { Trajectory } \tau=\left\{s_{1}, a_{1}, s_{2}, a_{2}, \cdots, s_{t}, a_{t}\right\}$
可以计算每一个轨迹发生的概率。假设演员的参数已经被给定 $θ$ 。根据 $θ$ ，可以计算某一个轨迹发生的概率，即某一个回合里面发生这样状况的概率：
$\begin{aligned} p_{\theta}(\tau) &=p\left(s_{1}\right) p_{\theta}\left(a_{1} | s_{1}\right) p\left(s_{2} | s_{1}, a_{1}\right) p_{\theta}\left(a_{2} | s_{2}\right) p\left(s_{3} | s_{2}, a_{2}\right) \cdots \\ &=p\left(s_{1}\right) \prod_{t=1}^{T} p_{\theta}\left(a_{t} | s_{t}\right) p\left(s_{t+1} | s_{t}, a_{t}\right) \end{aligned}$
这个概率取决于两部分：环境的行为和Agent的行为，

环境的行为:环境的函数内部的参数或内部的规则长什么样子， $p(s_{t+1}|s_t,a_t)$ 这一项代表的是环境，环境这一项通常你是无法控制的
Agent的行为:能控制的是 $p_\theta(a_t|s_t)$ ，给定一个 $s_t$ ，演员要采取什么样的 $a_t$ 会取决于演员的参数θ，随着演员的行为不同，每个同样的轨迹，它就会有不同的出现的概率

因为状态和动作的选取是随机的，所以R是一个随机变量。在给定某一组θ的情况下，得到的 $R_\theta$ 的期望值：
$\bar{R}=\sum_\tau R(\tau)p_\theta(\tau) \\ =E_{\tau \sim p_\theta(\tau)}[R(\tau)]$
也可以理解为，从分布 $p_\theta(\tau)$ 采样一个轨迹 $\tau$ ，计算的 $R(\tau)$ 的期望值

4.2 梯度上升(Gradient Ascent)

使用梯度上升(gradient ascent)，先要计算期望的奖励(expected reward) $\bar{R}$ 的梯度，这里面只有 $p_{\theta}(\tau)$ 是跟 $θ$ 有关，所以梯度就放在 $p_{\theta}(\tau)$ 这个地方。 $p_{\theta}(\tau)$ 这个奖励函数不需要是可微分的(differentiable)，取梯度之后，使用一个公式：
$\nabla f(x)=f(x)\nabla \log f(x)$
对 $\nabla p_{\theta}(\tau)$ 使用这个公式，然后会得到 $\nabla p_{\theta}(\tau)=p_{\theta}(\tau) \nabla \log p_{\theta}(\tau)$ ，进一步地，可以得到下式：
$\frac{\nabla p_{\theta}(\tau)}{p_{\theta}(\tau)}=\nabla \log p_{\theta}(\tau)pθ(τ)$
如下式所示，对 $τ$ 进行求和，把 $R(\tau)$ 和 $\log p_{\theta}(\tau)$ 这两项使用 $p_{\theta}(\tau)$ 进行加权，既然使用 $p_{\theta}(\tau)$ 进行加权，就可以被写成期望的形式。也就是从 $p_{\theta}(\tau)$ 这个分布里面采样 $τ$ 出来，计算 $R(\tau)$ 乘上 $\nabla\log p_{\theta}(\tau)$ ，然后把对所有可能的 $\tau$ 进行求和，就是这个期望的值(expected value)。
$\begin{aligned} \nabla \bar{R}_{\theta}&=\sum_{\tau} R(\tau) \nabla p_{\theta}(\tau)\\&=\sum_{\tau} R(\tau) p_{\theta}(\tau) \frac{\nabla p_{\theta}(\tau)}{p_{\theta}(\tau)} \\&= \sum_{\tau} R(\tau) p_{\theta}(\tau) \nabla \log p_{\theta}(\tau) \\ &=E_{\tau \sim p_{\theta}(\tau)}\left[R(\tau) \nabla \log p_{\theta}(\tau)\right] \end{aligned}$
实际上这个期望值没有办法算，所以用采样的方式来采样一大堆的 $\tau$ 。采样 $\ N\$ 笔 $\tau$ ，然后去计算每一笔的这些值，把它全部加起来，就可以得到梯度。就可以去更新参，进而更新Agent，如下式所示：
$\begin{aligned} E_{\tau \sim p_{\theta}(\tau)}\left[R(\tau) \nabla \log p_{\theta}(\tau)\right] &\approx \frac{1}{N} \sum_{n=1}^{N} R\left(\tau^{n}\right) \nabla \log p_{\theta}\left(\tau^{n}\right) \\ &=\frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}} R\left(\tau^{n}\right) \nabla \log p_{\theta}\left(a_{t}^{n} \mid s_{t}^{n}\right) \end{aligned}$
下面给出 $\nabla \log p_{\theta}(\tau)$ 的具体计算过程，如下式所示:
$\begin{aligned} \nabla \log p_{\theta}(\tau) &= \nabla \left(\log p(s_1)+\sum_{t=1}^{T}\log p_{\theta}(a_t|s_t)+ \sum_{t=1}^{T}\log p(s_{t+1}|s_t,a_t) \right) \\ &= \nabla \log p(s_1)+ \nabla \sum_{t=1}^{T}\log p_{\theta}(a_t|s_t)+ \nabla \sum_{t=1}^{T}\log p(s_{t+1}|s_t,a_t) \\ &=\nabla \sum_{t=1}^{T}\log p_{\theta}(a_t|s_t)\\ &=\sum_{t=1}^{T} \nabla\log p_{\theta}(a_t|s_t) \end{aligned}$
注意， $p(s_1)$ 和 $p(s_{t+1}|s_t,a_t)$ 由环境决定，所以与 $\theta$ 无关，因此 $\nabla \log p(s_1)=0$ ， $\nabla \sum_{t=1}^{T}\log p(s_{t+1}|s_t,a_t)=0$
$\begin{aligned} \nabla \bar{R}_{\theta}&=\sum_{\tau} R(\tau) \nabla p_{\theta}(\tau)\\&=\sum_{\tau} R(\tau) p_{\theta}(\tau) \frac{\nabla p_{\theta}(\tau)}{p_{\theta}(\tau)} \\&= \sum_{\tau} R(\tau) p_{\theta}(\tau) \nabla \log p_{\theta}(\tau) \\ &=E_{\tau \sim p_{\theta}(\tau)}\left[R(\tau) \nabla \log p_{\theta}(\tau)\right]\\ &\approx \frac{1}{N} \sum_{n=1}^{N} R\left(\tau^{n}\right) \nabla \log p_{\theta}\left(\tau^{n}\right) \\ &=\frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}} R\left(\tau^{n}\right) \nabla \log p_{\theta}\left(a_{t}^{n} \mid s_{t}^{n}\right) \end{aligned}$
直观地来理解上面这个式子，也就是在采样到的数据里面，采样到在某一个状态 $s_t$ 要执行某一个动作 $a_t$ ，这个 $s_t$ 跟 $a_t$ 是在整个轨迹 $\tau$ 的里面的某一个状态和动作的对

假设在 $s_t$ 执行 $a_t$ ，最后发现 $\tau$ 的奖励是正的，那就要增加这一项的概率，就要增加在 $s_t$ 执行 $a_t$ 的概率
反之，在 $s_t$ 执行 $a_t$ 会导致 $\tau$ 的奖励变成负的，就要减少这一项的概率

举例：

做分类的时候，目标函数就是最大化或最小化的对象，因为上文现在是最大化似然(likelihood)，要最大化的对象，如下式所示:
$\frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}} \log p_{\theta}\left(a_{t}^{n} \mid s_{t}^{n}\right)$
像这种损失函数，可在神经网络框架里调用现成的函数自动计算。RL唯一不同的地方是loss前面乘上一个权重：整场游戏得到的总奖励R，它并不是在状态 $s$ 采取动作 $a$ 的时候得到的奖励，如下式所示：
$\frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}} R\left(\tau^{n}\right) \log p_{\theta}\left(a_{t}^{n} \mid s_{t}^{n}\right)$
即要把每一笔训练数据，都使用R进行加权

从零开始强化学习（四）——策略梯度

四. 策略梯度(Policy Gradient)

4.1 期望奖励(Expected Reward)

4.2 梯度上升(Gradient Ascent)

猜你喜欢

热点阅读