为什么Q-Learning有效？

2018-02-08 本文已影响58人海街diary

关于增强学习Q(s,a)的理解。

Temporaral Difference通过求解Belleman最优方程来进行预测和控制。
关于最优价值函数、最优行为的定义如下：

最优价值函数最优行为最优价值函数的学习准则

最近在思考，为什么Q-Learning能取得如此好的效果。

总结关键点如下：

Q-Learning是通过直接解Belleman最优方程来求解最优Q值，而不是在无限多的策略π中选择最优的策略的Q值。
Belleman最优方程存在条件是要选择最优行为，因此Q-Learning的策略就是选择最优状态下Q值最大的行为。(存在条件、行为策略两者恰好统一）。
通过Incremental Improvement, 这种学习方法可以做到Policy Imporvement(更新后的Q值一定不比原来的差）。从而，实现了从任意状态开始进行学习，可以收敛到最优的价值函数。(这一点可以参照《Reinforcement Learning: An Introduction》的4.2节P62）

Q-Learning的学习方法