Reinforcement Learning3

2021-07-17 本文已影响0人 oword

coursera by University of Alberta

Prediction and Control with Function Approximation

week 1

1、 Parameterized Functions

image.png

强化学习可以分为两种，一种是表格化的方法，另一种是参数化的方法，由于很多问题无法用有限的表格来表示，因此，使用参数化的方法来近似 value function

在参数化方法中，只需要存储方程的参数，因此，存储效率得到提高，一个缺点是一个参数的改变会涉及到很多 state 的改变；而在表格化方法中，需要对每种 state 进行独立处理和存储，因此对于一些问题完全进行存储是不现实的

表格化方法实际上可以看作一种特殊的线性函数

image.png

X(s) : 对于 state s ，其特征向量

2、 Generalization and Discrimination 泛化和分化

image.png

泛化指的是对一个 state 的影响会影响到其他的 state
分化指的是区别不同的 state 的能力
表格化方法泛化能力弱，分化能力强
把所有状态聚集则泛化能力强而分化能力弱

3、 Framing Value Estimation as Supervised Learning

image.png

将 policy evaluation 看作有监督学习，即 X 为 state ， Y 为奖励的期望

不是所有的强化学习都能直接转化为监督学习，一是满足 online setting ，二是强化学习中的数据是相关联的

image.png

在 TD 当中，标签不是准确的，因为它使用 Bootstrapping ，用下一个 state 的估计值来估计当前的值；而在监督学习当中，标签是准确的

4、 The Value Error Objective 误差值目标

image.png

目标函数 Value Error Objective 指的是误差函数（相当于损失函数），在上式的均方差目标函数中， μ(s) 与 state s 出现的频率正相关

5、 Gradient Descent 梯度下降

image.png

全局最优解 $\hat{v}$ 不一定是 true value $v_\pi$

6、 Gradient Monte Carlo for Policy Evaluation

image.png

$G_t=R_{t+1}+R_{t+2}+...+R_{T}$

7、 State Aggregation

image.png

将多个 state 组成一组使用相同的 value estimate 称为 State Aggregation ，可以减少计算 value estimate 的时间，但是和真实值有一定的误差

8、 Semi-Gradient TD for Policy Evaluation

image.png

在 Semi-Gradient TD 中，将 $G_t$ 换成 $U_t$ 使用 Boostrapping 的方法对 $\hat{v}$ 进行估计
优点是方差小，收敛速度快，不必等到 episode 结束才更新
缺点是不能保证收敛到局部最小值，因为 TD 方法根据下一个 state 的估计值 $\hat{v}$ 来推断当前 state 的估计值，如果下一个 state 的估计值 $\hat{v}$ 不准确则推断出来的估计值也不准确
如果从长远来看， MC 方法比 TD 方法要准确

image.png

在平方差的情况下 TD 不能梯度下降，即 Semi-Gradient TD

image.png

9、 TD Fixed Point

image.png

$W_{TD}$ 指的是 TD Fixed Point ，即 TD 方法最后收敛到 TD Fixed Point ，当 $γ$ 接近 0 的时候 TD Fixed Point 趋近于局部最小值，当 value function 选择比较好的时候， $\overline{VE} ( W_{TD} )$ 和 $\overline{VE} ( W )$ 都为 0