动态规划

2017-08-14 本文已影响0人阿山

动态规划用来计算最优策略，条件是环境已知。

首先，环境已知的话，我们可以计算最优的value function：根据贝尔曼方程：

最优值函数

最优action-value function

Policy Evaluation 策略估计

首先我们要根据已有的策略计算这个策略的value function：

value function的定义

所有的概率是已知的，直接计算。最好的方式是根据贝尔曼方程迭代计算：

value function迭代计算

迭代过程可以从以下伪代码中得出：

image.png

Policy Improvement

上一篇下一篇

猜你喜欢

热点阅读