增强学习Reinforcement Learning

为什么Q-Learning有效?

2018-02-08  本文已影响58人  海街diary

关于增强学习Q(s,a)的理解。

Temporaral Difference通过求解Belleman最优方程来进行预测和控制。
关于最优价值函数、最优行为的定义如下:

最优价值函数 最优行为 最优价值函数的学习准则

最近在思考,为什么Q-Learning能取得如此好的效果。

总结关键点如下:

Q-Learning的学习方法
上一篇 下一篇

猜你喜欢

热点阅读