Dueling Network Architectures fo

2018-09-15  本文已影响0人  Junr_0926

1. 前言

依旧是一篇关于DQN的文章,出自Deepmind。这篇论文中,作者提出了一种新的网络架构。网络包含两个部分:一个用于估计state-value函数,一个用于估计状态相关的action-advantage函数。
如下图:


network

2. 背景

作者期望能够找到一种更加适合model-free RL的网络,就像上图一样。作者将价值函数和action advantages函数分开拟合,它们共享一个卷积网络作为特征提取器。

我们将强化学习的过程看做一个agent进行动作选择的过程,这个agent在每个时间点和环境进行交互,产生一个动作,并且达到一个新的状态。在Atari游戏中,agent在一个时刻t得到一个视频流s_t,这个视频包含了M个图片s_t=(x_{t-M+1}, ..., x_t)。然后这个agent选择一个动作a_t \in A,并且观察到了一个reward:r_t
那么学习过程就是agent学习一个最优的策略使得它能得到的期望最大,也就是R_t = \sum_{\tau=t}^\infty \gamma^{\tau - t} r_\tau
为了找到一个最佳的策略,我们常常需要计算价值函数或者action advantage函数。通常来说,它们由以下公式决定:

func
其中 Q
Q-learning就是采用以下公式作为最优的Q的更新
Q-learning
通常情况下,定义action advantage函数如下:
advantage
一般 Q-network
DQN使用了固定目标网络参数,使用experience replay来计算梯度,在一定的轮次之后更新目标网络参数的方法。

3. The Dueling Network Architecture

dueling网络的主要思想是对于很多状态,没有必要估计出每个动作的价值。dueling网络像DQN一样有着一个基础的卷积网络,但是有两个分开的fc层,它们分别预测了value和advantage函数。最终,这两个部分结合在一起输出作为Q
作者使用其中一个stream来预测V,另一个来预测A
我们知道advantage函数:Q^\pi (s, a) = V^\pi (s) + A^\pi (s, a),state-value函数为:V^\pi (s) = E_{a属于\pi(s)} [Q^\pi(s,a)]。所以advantage函数的平均值为0。另外对于一个确定性的策略,a^* = argmax_{a' \in A} Q(s, a'),因此Q(s, a^*) = V(s),得到A(s, A^*) = 0
因此,在组合两个stream的输出时,非常直接的选择:

Q
Q

还有一种选择是:


Q
上一篇 下一篇

猜你喜欢

热点阅读