[强化学习] Saras 算法

2018-10-15 本文已影响0人 winddy_akoky

image.png

Sarsa 的名称来源与上图所描述的序列：针对一个状态 $S$ ，个体通过行为策略产生一个行为 $A$ ，执行该行为进而产生一个状态行为对 $(S,A)$ ，环境收到个体的行为后会告诉个体即时奖励 $R$ 以及后续进入的状态 $S^\prime$ ；个体在状态 $S^\prime$ 时遵循当前的行为策略产生一个新的行为 $A^\prime$ ，个体此时，并不执行该行为，而是通过行为价值函数得到后一个状态行为对 $(S^\prime, A^\prime)$ 的价值，利用这个新的价值和即时奖励 $R$ 来更新前一个状态行为对 $(S,A)$ 的价值

与MC算法不同的是，Sarsa 算法在单个状态序列内的每一个时间步，在状态 $S$ 下采取一个行为 $A$ 到达状态 $S^\prime$ 后都要更新状态行为对 $(S,A)$ 的价值 $Q(S,A)$ ，这一过程同样使用 $\epsilon -$ 贪婪策略进行策略迭代：

image.png

算法描述如下：

Selection_096.png

[强化学习] Saras 算法

猜你喜欢

热点阅读