近端策略优化（PPO）

2018-11-20 本文已影响0人博士伦2014

1. 背景

我们如何使用我们目前拥有的数据对策略进行可能的改进步骤，而不会踩到意外导致性能崩溃？TRPO尝试使用复杂的二阶方法解决这个问题，PPO是一系列一阶方法，这些方法使用一些其他技巧来保持新策略接近旧的。 PPO方法实现起来非常简单，并且在经验上似乎至少与TRPO一样好。

2. 基本事实

$\bullet$ PPO是一种on-policy的算法。

$\bullet$ PPO可用于具有离散或连续动作空间的环境。

$\bullet$ PPO的Spinning Up实现支持与MPI的并行化。

3. 关键方程

PPO-clip通过下式更新策略

$\theta_{k+1} = \arg \max_{\theta} \underset{s,a \sim \pi_{\theta_k}}{{\mathrm E}}\left[ L(s,a,\theta_k, \theta)\right],$

通常采取多步骤（通常是minibatch）SGD来最大化目标，这里的 $L$ 由下式给出

$L(s,a,\theta_k,\theta) = \min\left( \frac{\pi_{\theta}(a|s)}{\pi_{\theta_k}(a|s)} A^{\pi_{\theta_k}}(s,a), \;\; \text{clip}\left(\frac{\pi_{\theta}(a|s)}{\pi_{\theta_k}(a|s)}, 1 - \epsilon, 1+\epsilon \right) A^{\pi_{\theta_k}}(s,a) \right),$

其中 $\epsilon$ 是一个（小）超参数，大致说明新策略与旧策略相差多少。

这是一个非常复杂的表达，乍一看很难说明它正在做什么，或者它如何帮助保持新策略接近旧政策。事实证明，这个目标有一个相当简化的版本[1]，它更容易解决（也是我们在代码中实现的版本）：

$L(s,a,\theta_k,\theta) = \min\left( \frac{\pi_{\theta}(a|s)}{\pi_{\theta_k}(a|s)} A^{\pi_{\theta_k}}(s,a), \;\; g(\epsilon, A^{\pi_{\theta_k}}(s,a)) \right),$

其中

$g(\epsilon, A) = \left\{ \begin{array}{ll} (1 + \epsilon) A & A \geq 0 \\ (1 - \epsilon) A & A < 0. \end{array} \right.$

为了弄清楚其中的细节，让我们看一下单一的状态 - 动作对 $(s,a)$ ，并考虑一下情况

3.1 Advantage is positive: 假设该状态 - 行动对的优势是正的，在这种情况下，它对目标的贡献减少到

$L(s,a,\theta_k,\theta) = \min\left( \frac{\pi_{\theta}(a|s)}{\pi_{\theta_k}(a|s)}, (1 + \epsilon) \right) A^{\pi_{\theta_k}}(s,a).$

因为优势是正的，所以如果动作变得更可能，目标将会增加——也就是说，如果 $\pi_{\theta}(a|s)$ 增加。但是这个术语中的最小值限制了目标可以增加多少。一旦 $\pi_{\theta}(a|s) > (1+\epsilon) \pi_{\theta_k}(a|s)$ ，最小值开始，这一项达到 $(1+\epsilon) A^{\pi_{\theta_k}}(s,a)$ 的上限。因此：新策略不会因远离旧策略而受益。

3.2 Advantage is negative：假设该状态 - 行动对的优势是负的，在这种情况下，它对目标的贡献减少到

$L(s,a,\theta_k,\theta) = \max\left( \frac{\pi_{\theta}(a|s)}{\pi_{\theta_k}(a|s)}, (1 - \epsilon) \right) A^{\pi_{\theta_k}}(s,a).$

因为优势是负的，如果行动变得不太可能 - 即如果 $\pi_{\theta}(a|s)$ 减少，则目标将增加。但是这个术语的最大值限制了目标可以增加多少。一旦 $\pi_{\theta}(a|s) < (1-\epsilon) \pi_{\theta_k}(a|s)$ ，最大值开始，，这一项达到就达到了 $(1-\epsilon) A^{\pi_{\theta_k}}(s,a)$ 的上限。因此，再次说明：新策略不会因远离旧策略而受益。