强化学习导论——On-policy Control with A
2018-10-17 本文已影响23人
初七123
On-Policy Prediction 中的方法很容易扩展到控制学习问题中
完整的伪代码
同理有n-step的Sarsa
设平均回报
可以据此定义新的价值函数
并且有新的误差
差分半梯度 n-step Sarsa
在函数近似情况下,是否需要衰减因子成为一个疑问
假设一种情况:一个无穷的决策序列,并且每个阶段的状态值s都差不多,考虑一个特殊情况,所有的s都一致
这时加不加衰减因子对结果没有影响
衰减因子失去作用的根本原因是是,函数近似失去了policy improvement theorem
n-step Differential Semi-gradient Sarsa