读论文Deterministic Policy Gradient
近期打算把基于策略梯度的增强学习的几篇论文读了,包括DPG、DDPG、TRPO和A3C,希望能对策略梯度的学习有一个促进。
第一篇论文是Deterministic Policy Gradient Algorithms,简称DPG,也是deepmind发表的,后面又出了一篇论文DeepDPG,简称DDPG。很多基于策略梯度学习的论文都会选择DDPG算法进行效果比较。
论文讲了很多理论基础知识,正好学习一下
1、策略梯度(概率策略)
在MDP过程中,我们寻找是一个能使累计奖赏最大化的策略,目标函数定义如下:
策略梯度的想法就是沿着使目标函数变大的方向调整策略的参数:
这就是策略梯度的公式,出乎意料的简单
2、Actor-Critic算法
Actor-Critic算法网上用的最经典的图如下:
Actor-Critic算法把策略函数和价值函数分别用单独的网络来近似, 策略函数作为Actor来做动作选择,价值函数作为Critic来对策略函数进行评估,根据Critic的输出来更新价值网络和策略网,把论文后面的几个公式放在这里描述一下整个的更新过程:
3、Off-Policy
Off-policy就是通过其他的策略形成的采样样本来更新当前的策略,笼统来讲,如果我们考虑greedy算法,off-policy和on-policy的差异没有那么大。论文还是列了一下策略梯度的不同的地方,意思是采样是服从有一个比率的重点采样,但是梯度方向是没有变化的。
4、Deterministic Policy Gradient Theorem
论文附录中有证明,当概率策略的方差趋近于0的时候,就是确定性策略,公式9就是公式2的特例
5、Compatible Function Approximation
对合理的Q函数近似还是有一定要求的,才能满足模拟函数Q的梯度等于真实Q的梯度
最后,最重要的迭代公式:
我不告诉你,我没看懂,如何通过策略函数的梯度来线性近似表示Q函数。
最后论文通过比较stochastic on-policy actor-critic
(SAC), stochastic off-policy actor-critic (OffPAC), and deterministic
off-policy actor-critic (COPDAC)在连续的动作空间的游戏的表现说明DPG的算法效率比较高,效果也不错。
论文也给出了DPG在ba z八抓鱼中的测试,随着迭代的进行,reward有一直增长的趋势,具体数据看论文吧。
结论: