强化学习导论——Off-policy Methods with

2019-01-02 本文已影响10人初七123

Semi-gradient Methods

前面个章节中，我们提到了表格法的异策略，这里稍作修改得到半梯度的异策略算法

对于动作值函数

可以看到这里并没有使用重要性采样，这是因为1-step下可以看出p等于1
在多step的算法中需要重要性采样

Examples of Off-policy Divergence

第一个例子

如果w=10, 左边节点特征值为1，右边特征值为2，即左边V(1)=10，右边V(2)=20
那么从左边到右边的动作TD error = 10，所以w= w + 0.1*10 = 11
因为异策略可能只采样这条轨迹，从而w逐渐变为无穷大

第二个例子

The Deadly Triad

函数近似、自举以及异策略会导致Deadly Triad

函数近似（因为问题的规模）和自举（因为效率）是难以舍弃的
但是异策略不一定被需要

Linear Value-function Geometry

Stochastic Gradient Descent in the Bellman Error

Temporal difference learning is driven by the TD error. Why not take the minimization of the expected square of the TD error as the objective?

TD Error

Mean Squared TD Error

然而，我们的分析得出结论认为，在许多情况下这不是一个吸引人的目标，并且无论如何使用学习算法都无法实现 - BE的梯度无法从仅显示特征向量而非基础状态的经验中学习。另一种方法是Gradient-TD方法，在投影贝尔曼误差中执行SGD。可以通过O(d)复杂度来学习PBE的梯度，但是以具有第二步长的第二参数向量为代价。最新的方法系列，Emphatic-TD methods，改进了重新定量更新的旧想法，强调了一些并且不再强调其他人。通过这种方式，他们可以通过计算简单的半梯度方法恢复使策略学习稳定的特殊属性。