Proximal Policy Optimization Alg

2018-07-10  本文已影响240人  初七123

Introduction

目前深度强化学习主要有deep Q-learning、policy gradient methods、trust region / natural policy gradient methods
PPO算法是TRPO的近似解,更容易实现

Background: Policy Optimization

Policy Gradient Methods

At是动作优势值
这种方法经常出现具有破坏性的梯度更新,见6.1节

Trust Region Methods
TRPO的关键作用在于找到合适的步长。合适的步长是指当策略更新后,回报函数的值不能更差。

用损失函数代替条件约束


但是这个系数b对于每个问题都是不一样的

Clipped Surrogate Objective

我们提出的目标函数如下

Adaptive KL Penalty Coefficient

自适应散度惩罚系数
我们在实验中发现这种方法比前者要差一些

Algorithm

策略网络和值网络共享参数,得到目标函数

Experiments

比较目标函数

比较其它连续值算法

Atari


上一篇下一篇

猜你喜欢

热点阅读