Continuous control with deep rei 2019-01-08 本文已影响5人 初七123 用确定性策略梯度来解决连续动作学习问题 用深度学习作为函数拟合器 用经验池去除相关性(使得样本是独立同分布的,而不是时间相关的) 用target network使得学习更加稳定 使用噪音来探索