Proximal Policy Optimization Alg

2018-07-10 本文已影响240人初七123

Introduction

目前深度强化学习主要有deep Q-learning、policy gradient methods、trust region / natural policy gradient methods
PPO算法是TRPO的近似解，更容易实现

Policy Gradient Methods

A_t是动作优势值
这种方法经常出现具有破坏性的梯度更新，见6.1节

Trust Region Methods
TRPO的关键作用在于找到合适的步长。合适的步长是指当策略更新后，回报函数的值不能更差。

用损失函数代替条件约束

但是这个系数b对于每个问题都是不一样的

我们提出的目标函数如下

自适应散度惩罚系数
我们在实验中发现这种方法比前者要差一些

策略网络和值网络共享参数，得到目标函数

比较目标函数

比较其它连续值算法

Atari