强化学习导论——On-policy Control with A

2018-10-17  本文已影响23人  初七123

On-Policy Prediction 中的方法很容易扩展到控制学习问题中

完整的伪代码

同理有n-step的Sarsa

设平均回报

可以据此定义新的价值函数

并且有新的误差

差分半梯度 n-step Sarsa

在函数近似情况下,是否需要衰减因子成为一个疑问
假设一种情况:一个无穷的决策序列,并且每个阶段的状态值s都差不多,考虑一个特殊情况,所有的s都一致
这时加不加衰减因子对结果没有影响

衰减因子失去作用的根本原因是是,函数近似失去了policy improvement theorem

n-step Differential Semi-gradient Sarsa

上一篇下一篇

猜你喜欢

热点阅读