Continuous control with deep rei

2019-01-08 本文已影响5人初七123

用确定性策略梯度来解决连续动作学习问题
用深度学习作为函数拟合器
用经验池去除相关性（使得样本是独立同分布的，而不是时间相关的）
用target network使得学习更加稳定
使用噪音来探索

上一篇下一篇

猜你喜欢

热点阅读