值分布强化学习

2020-07-14  本文已影响0人  臻甄

参考:
https://zhuanlan.zhihu.com/p/65116688
https://blog.csdn.net/weixin_41168254/article/details/90382466

三篇论文

1. 什么是值分布强化学习

(1)折扣累积回报其实是一个随机变量,就是在相同输入的时候,可能会取不同的值。 (2)行为值函数是回报的期望,以及其Bellman方程表达形式: (3)强化学习的目标是找到最优点的策略π,以最大化行为值函数,就是在所有x,a对,对于所有的π,有:

(1)折扣累积回报Z是一个随机变量,随机变量是有分布的,包含的信息比常规强化学习求出来的的均值要包含更多更多的信息量,包含更多和环境交互的信息,或许就是传统强化学习收敛难,不鲁棒,样本效率低,训练难的问题原因。

(2)考虑这些分布信息,重新形式化强化学习,首先确认Z确实是一个随机变量。影响因素:①随机性环境(状态转移的随机性、状态表示的混叠效应),②随机性策略,③神经网络的函数逼近将无穷大的状态空间编码成有限的状态特征,那么同一个特征对应不同状态可能会有不同的折扣累计回报,使得Z变成了随机变量(这也是为什么神经网络没有表格型方法那么好收敛,同时也是为什么值分布强化学习在Deep RL里效果明显)。

(3)值分布强化学习领域大神:Marc G. Bellemare,DeepMind写出了C51的那个一作

2. 值分布强化学习经典论文

2.1 C51算法

问题:我们要优化的回报期望Z实际上是个有分布的随机变量,经典强化学习优化值分布的均值,忽略了分布的信息。

A. 重要概念

B. C51算法核心

分为两步:
(1)启发式投影
(2)最小化投影后的Bellman更新分布与预测分布之间的KL散度。

C. C51伪代码

C51

D. C51与DQN对比

2.2 QR-DRL

A. 重要概念

分位数回归:先对值分布Z投影到ZQ进行量化

设Y是第一矩有界的分布,U为N个狄拉克函数组成的均匀分布,支撑为{θ1,θ2,...,θN},那么 根据引理2 我们最小化W1(Y,U)的 为了解决有偏梯度问题,使用了分位数回归来进行分位数函数的无偏随机逼近。对于一个分布Z以及一个给定的分位数t,分位数函数Fz^-1的值能够由分位数回归存世的最小化来体现, 得到下面一行的优化目标 image.png 特别是,这种损失给出了无偏样本梯度。因此,我们可以通过随机梯度下降来找到最小化支撑{θ1,θ2,...,θN},进一步的也有平滑版本的Quantile Huber Loss:

QR-DQN 大题思路

QR-DQN伪代码

2.3 IQN

https://zhuanlan.zhihu.com/p/60949506

如何参数化收益分布是基于分布的强化学习算法(distributional reinforcement learning)的核心问题,现有工作中对分布的拟合往往是在固定的几个点上。

上一篇 下一篇

猜你喜欢

热点阅读