[DDPG] Continuous Control with D

2021-06-07  本文已影响0人  超级超级小天才

论文链接:https://arxiv.org/abs/1509.02971
引用:Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[J]. arXiv preprint arXiv:1509.02971, 2015.

概述

Deep Deterministic Policy Gradient (DDPG) 是DPG算法加上深度学习的版本,是一个 model-free、off-policy 的 actor-critic 系算法,使用深度神经网络作为函数近似方程,主要的特点是支持高维度的连续的动作空间,这是在DQN算法上的一个主要突破,其实也就是因为是 actor-critic 系的算法,所以支持连续动作空间。

算法

DDPG 算法

主要创新点

其他的点

上一篇 下一篇

猜你喜欢

热点阅读