强化学习导论——On-policy Control with A

2018-10-17 本文已影响23人初七123

On-Policy Prediction 中的方法很容易扩展到控制学习问题中

完整的伪代码

同理有n-step的Sarsa

设平均回报

可以据此定义新的价值函数

并且有新的误差

差分半梯度 n-step Sarsa

在函数近似情况下，是否需要衰减因子成为一个疑问
假设一种情况：一个无穷的决策序列，并且每个阶段的状态值s都差不多，考虑一个特殊情况，所有的s都一致
这时加不加衰减因子对结果没有影响

衰减因子失去作用的根本原因是是，函数近似失去了policy improvement theorem

n-step Differential Semi-gradient Sarsa