强化学习中on-policy和off-policy方法

2019-04-17  本文已影响0人  Jaydu

什么是策略?

一个确定性策略定义了一个从行动空间到状态空间的函数\pi:A\mapsto S。在实际应用中,一个策略的输出常常是一个概率分布,表示在状态s\in S下采取每一个动作a\in A的概率。

如何学习?

一共有两类方法:

  1. 通过估计动作-状态函数Q(s,a),预测未来折扣报酬的期望;
  2. 找到产生最大报酬的策略\pi=\pi(a|s)

On-policy和off-policy的区别?

On-policy和off-policy学习只与第一类方法有关。

区别是:

上一篇下一篇

猜你喜欢

热点阅读