Paper reading

Temporal Difference Variational

2019-03-20  本文已影响53人  d88e0445288d

简介

【笔记版】

今天要讲的是ICLR2019中DeepMind的一个高分工作,TD-VAE,一个序列生成模型。通过引入强化学习中时序差分以及变分自动编码器,来实现从当前时间步到未来时间步的预测。这里值得注意的是,TD-VAE并不是一个固定时间步的序列生成模型(当然如果训练时喂的训练数据是一个时间间隔固定的序列数据,那么训练出的模型就是固定时间步的序列生成模型),即其生成的数据时间间隔不是一个固定的时间步,而是随机的。如果想生成数据的时间间隔可控,那么可以在前向模型的建模中显式地将时间步作为变量即可。

这篇论文的作者认为,一个序列生成模型需要具备以下三点属性:

优化目标

TD-VAE的目标便是优化以下对数条件似然:
\log p(x_t|x_{<t})
这里假设x_t可以通过该时间步以及上一个时间步的状态表示z_tz_{t-1}推断得出,类似于VAE中损失函数的推导过程,这里同样引入ELBO,具体推导过程如下图:

推导过程 推导过程 推导过程 推导过程

最后的损失函数包含以下几个部分:

损失函数1

然后我们把两个连续时间步的状态表示换为两个任意时刻的状态表示:

损失函数2

这实质上是如下VAE的损失函数:

VAE

其中t2>t1。整个损失函数可以直观地解释为以下四个部分组成:

直观解释1 直观解释2

训练时的计算图如下所示:

计算图

最后在三个不同任务上的实验结果:

实验1 实验2 实验3
上一篇 下一篇

猜你喜欢

热点阅读