[强化学习] Saras 算法

2018-10-15  本文已影响0人  winddy_akoky
image.png

Sarsa 的名称来源与上图所描述的序列:针对一个状态S,个体通过行为策略产生一个行为A,执行该行为进而产生一个状态行为对(S,A),环境收到个体的行为后会告诉个体即时奖励R以及后续进入的状态S^\prime;个体在状态S^\prime时遵循当前的行为策略产生一个新的行为A^\prime,个体此时,并不执行该行为,而是通过行为价值函数得到后一个状态行为对(S^\prime, A^\prime)的价值,利用这个新的价值和即时奖励R来更新前一个状态行为对(S,A)的价值

与MC算法不同的是,Sarsa 算法在单个状态序列内的每一个时间步,在状态S下采取一个行为A到达状态S^\prime后都要更新状态行为对(S,A)的价值Q(S,A),这一过程同样使用\epsilon -贪婪策略进行策略迭代:

image.png

算法描述如下:


Selection_096.png
上一篇下一篇

猜你喜欢

热点阅读