深度强化学习（9）Fitted Q-iteration

2022-02-13 本文已影响0人数科每日

在深度强化学习（8）Actor-Critic 算法（2）中，我们提到了 Batch Actor Ctritic 算法：

Batch Actor Ctritic

image.png

在之前讨论的算法中（Policy Gradient， Actor Ctritic），其核心都是 Policy ( $\pi_{\theta}(a|s)$ ) 。我们可以思考一个问题，我们是不是可以把 Policy 网络丢弃呢，毕竟，训练 Policy 网络消耗了很多资源。

其实我们如果可以正确的估计出 $A^{\pi}$ ( $Q^{\pi}$ , $V^{\pi}$ ), 其实是可以用一个及其简单的 Policy ，而抛弃复杂的神经网络的。其实很简单，就是选择表现最好的 Action：

选最好的Action

算法就变成了：

image.png

其中：

Advance Function

所以，只要能够建立对 $V^{\pi}(s)$ ，我们就可以完成这项工作。有两种方法

但是，对于方法2，我们遇到一个问题：

image.png

在计算 $E[V_{\phi}(s^{\prime}_{i})]$ 需要知道各种不同的 Action 的收益，但是现在没有Policy 函数，我们没法知道 Action 的分布。

一个办法是，我们使用Q Function 替代

用 Q Fucntion

我们直接用 Q Fucntion的话，就可以绕开对 Action 的分布的需求了。所以问题就变成了求 Q Function 的神经网络了。

要训练的 Q Function NN 长得是这样:

Q Function Network