读论文Deterministic Policy Gradient

2016-09-27 本文已影响5103人吕鹏_hunhun

近期打算把基于策略梯度的增强学习的几篇论文读了，包括DPG、DDPG、TRPO和A3C，希望能对策略梯度的学习有一个促进。

第一篇论文是Deterministic Policy Gradient Algorithms，简称DPG，也是deepmind发表的，后面又出了一篇论文DeepDPG，简称DDPG。很多基于策略梯度学习的论文都会选择DDPG算法进行效果比较。

论文讲了很多理论基础知识，正好学习一下

1、策略梯度（概率策略）

在MDP过程中，我们寻找是一个能使累计奖赏最大化的策略，目标函数定义如下：

策略梯度的想法就是沿着使目标函数变大的方向调整策略的参数：

这就是策略梯度的公式，出乎意料的简单

2、Actor-Critic算法

Actor-Critic算法网上用的最经典的图如下：

Actor-Critic算法把策略函数和价值函数分别用单独的网络来近似，策略函数作为Actor来做动作选择，价值函数作为Critic来对策略函数进行评估，根据Critic的输出来更新价值网络和策略网，把论文后面的几个公式放在这里描述一下整个的更新过程：

3、Off-Policy

Off-policy就是通过其他的策略形成的采样样本来更新当前的策略，笼统来讲，如果我们考虑greedy算法，off-policy和on-policy的差异没有那么大。论文还是列了一下策略梯度的不同的地方，意思是采样是服从有一个比率的重点采样，但是梯度方向是没有变化的。

4、Deterministic Policy Gradient Theorem

论文附录中有证明，当概率策略的方差趋近于0的时候，就是确定性策略，公式9就是公式2的特例

5、Compatible Function Approximation

对合理的Q函数近似还是有一定要求的，才能满足模拟函数Q的梯度等于真实Q的梯度

最后，最重要的迭代公式：

我不告诉你，我没看懂，如何通过策略函数的梯度来线性近似表示Q函数。

最后论文通过比较stochastic on-policy actor-critic

(SAC), stochastic off-policy actor-critic (OffPAC), and deterministic

off-policy actor-critic (COPDAC)在连续的动作空间的游戏的表现说明DPG的算法效率比较高，效果也不错。

论文也给出了DPG在ba z八抓鱼中的测试，随着迭代的进行，reward有一直增长的趋势，具体数据看论文吧。

结论：