Continuous control with deep rei

2019-01-08  本文已影响5人  初七123
  1. 用确定性策略梯度来解决连续动作学习问题
  2. 用深度学习作为函数拟合器
  3. 用经验池去除相关性(使得样本是独立同分布的,而不是时间相关的)
  4. 用target network使得学习更加稳定
  5. 使用噪音来探索
上一篇 下一篇

猜你喜欢

热点阅读