强化学习中on-policy和off-policy方法

2019-04-17 本文已影响0人 Jaydu

什么是策略？

一个确定性策略定义了一个从行动空间到状态空间的函数 $\pi:A\mapsto S$ 。在实际应用中，一个策略的输出常常是一个概率分布，表示在状态 $s\in S$ 下采取每一个动作 $a\in A$ 的概率。

如何学习？

一共有两类方法：

通过估计动作-状态函数 $Q(s,a)$ ，预测未来折扣报酬的期望；
找到产生最大报酬的策略 $\pi=\pi(a|s)$ 。

On-policy和off-policy的区别？

On-policy和off-policy学习只与第一类方法有关。

区别是：

在on-policy学习中， $Q(s,a)$ 是从策略产生的样本中学习，并使用它进行控制，边交互边学习。
在off-policy学习中， $Q(s,a)$ 是从不同的行动中学习，例如随机行动，并不需要策略采取行动，致力于重用过去的经验样本。

上一篇下一篇

猜你喜欢

热点阅读