萌新的机器学习

从TRPO到PPO

2018-08-05  本文已影响2人  初七123

TRPO

引出优化目标
新策略的回报函数可以分解为旧策略的回报函数+一些其它项

其中A是优势函数,证明过程如下

若设

可以得到

换了一个积分顺序

如果新旧策略的步长足够小,可以用旧策略的参数代替新策略

并且对L的梯度更新能同时优化η(一阶近似)
但是这个步长是未知的

那么如何获得合适的梯度步长?

论文中给出了一个不等式(暂时不考虑证明)

如果每一次迭代使Mi最大化,则可以保证目标函数递增

因为惩罚系数会使得步长非常小,所以用Dklmax约束代替C

因为Dklmax不便于求解,所以用平均散度代替最大散度

如何求解TRPO?

代替

用Qold代替Aold

新策略参数是未知的,引入重要性采样有

于是优化目标变成

使用 single path 的采样方法时 q(a|s) = π(a|s)old

求解TRPO的步骤为

PPO

OpenAI在提出了TRPO算法后
因为共轭梯度法的效率不高
又提出了一种TRPO的近似算法PPO

不错的资料

https://zhuanlan.zhihu.com/p/30138538
https://zhuanlan.zhihu.com/p/30548114
https://zhuanlan.zhihu.com/p/29918825

上一篇下一篇

猜你喜欢

热点阅读