2019-04-20派森学习第152天
2019-04-20 本文已影响0人
每日派森
继续摸索一下强化学习
看看Q学习的伪代码:
1.初始化价值表 ‘Q(s, a)’.
2.观察当前的状态值 ‘s’.
3.基于动作选择一个策略(例如,epsilon贪婪)作为该状态选择的动作.
4.根据这个动作,观察回报价值 ’r’ 和下一个新的状态 s.
5.使用观察到的奖励和可能的下一个状态所获得的最大奖励来更新状态的值。根据上述公式和参数进行更新。
6.将状态设置为新的状态,并且重复上述过程,直到达到最终状态。
Q学习的简单描述可以总结如下:
流程图