萌新的机器学习

深度强化学习-Sarsa和Q-Learning的区别

2018-06-24  本文已影响2人  初七123

和AlphaGo中的MCTS不同
Q-Learning和Sarsa都是基于TD的强化学习方法

Q(s, a) 表示动作值函数

Q-Learning

初始化环境状态s
循环
--用 ε 贪心在s上选择动作a
--执行动作a获取回报r和新状态s'
--用(r +s'的最优动作值)和当前Q(s, a)的差更新Q(s, a)
--s=s'

Sarsa

初始化环境状态s
用 ε 贪心在s上选择动作a
循环
--执行动作a获取回报r和新状态s'
--用 ε 贪心在s'上选择动作a'
--用(r + Q(s', a'))和当前Q(s, a)的差更新Q(s, a)
-- a = a', s = s'

总结

参考

https://www.cnblogs.com/jinxulin/p/5116332.html

上一篇 下一篇

猜你喜欢

热点阅读