[TRPO] Trust Region Policy Optim

2021-06-07  本文已影响0人  超级超级小天才

论文链接:http://proceedings.mlr.press/v37/schulman15
引用:Schulman J, Levine S, Abbeel P, et al. Trust region policy optimization[C]//International conference on machine learning. PMLR, 2015: 1889-1897.

概述

Trust Region Policy Optimization (TRPO) 算法是一个 model-free、policy-based、on-policy、Mento Carlo 的算法,且支持连续的状态空间和连续的动作空间,也支持高维输入、神经网络作为函数approximator。

主要的特点

主要的近似过程

两种算法实现方式

具体的例子如下图所示:

single path and vine approach
上一篇 下一篇

猜你喜欢

热点阅读