强化学习-资格迹(Eligibility trace)
2021-10-19 本文已影响0人
闪电侠悟空
问题描述
我个人觉得邹伟博士的《强化学习》在关于资格迹的论述不是很清晰。无法理解资格迹的突然出现,这里就简单说下我的理解。
强化学习的主要目标就是获取价值函数(value function)或者行为价值函数(action-value function),这里我们还是以值函数为例进行说明。
,
这里用参数 统一公式化表格型,,或者连续型值函数.
累积回报: ,
值函数定义: 累积回报的期望 。求解最优值函数便成了一个优化问题
(我这里分开每个状态表示表格型的RL问题)
数学求解(梯度下降)
用梯度下降法,求解上述优化问题不算复杂
其中
所以,
对于表格型强化学习, 所以
现状还有两个问题没有解决
- 如何计算?这一项实际上就是TD error,Sarsa & Q-learning都解决了。
- 如何计算?这个玩意儿我们暂时就称为资格迹,值函数更新是否有资格,就看这个数据的取值。
资格迹的计算与近似
- 直接看公式 ,那么恒成立。也就是普通的算法,不是课本上的资格迹。
- 既然如此,为什么要严格按照优化公式?将替换成类似的行不行?
脉冲神经网络中,不就是将时序脉冲转换为膜电位的思路吗?
所以,根据出现的频率,增大,增大更新幅值. 所以这也是一个将全局系数,变成一个局部系数的改进.
好了,到这里,资格迹的算法就出来。
来自R. S. Sutton的书
总结
- 资格迹,是根据状态出现的时空频率,增加频繁出现数据的更新值。
- 全局系数变成了局部系数。