从TRPO到PPO
2018-08-05 本文已影响2人
初七123
TRPO
引出优化目标
新策略的回报函数可以分解为旧策略的回报函数+一些其它项
其中A是优势函数,证明过程如下
若设
可以得到
换了一个积分顺序如果新旧策略的步长足够小,可以用旧策略的参数代替新策略
并且对L的梯度更新能同时优化η(一阶近似)
但是这个步长是未知的
那么如何获得合适的梯度步长?
论文中给出了一个不等式(暂时不考虑证明)
如果每一次迭代使Mi最大化,则可以保证目标函数递增
因为惩罚系数会使得步长非常小,所以用Dklmax约束代替C
因为Dklmax不便于求解,所以用平均散度代替最大散度
如何求解TRPO?
用
代替
用Qold代替Aold
新策略参数是未知的,引入重要性采样有
于是优化目标变成
使用 single path 的采样方法时 q(a|s) = π(a|s)old
求解TRPO的步骤为
PPO
OpenAI在提出了TRPO算法后
因为共轭梯度法的效率不高
又提出了一种TRPO的近似算法PPO
不错的资料
https://zhuanlan.zhihu.com/p/30138538
https://zhuanlan.zhihu.com/p/30548114
https://zhuanlan.zhihu.com/p/29918825