2019-11-04 Generating Sentences
2019-11-05 本文已影响0人
BoringFantasy
Paper Reading: Generating Sentences from a Continuous Space
摘要
- 传统的RNN生成模型一次只生成一个词,无法在显式的全局句子表示中起作用。
- 本文提出基于RNN变体的VAE模型,能够显式的建模句子的整体属性。
介绍
- 该模型使用了VAE及变分推断的最新进展。
- 使用对抗性分类器。
背景
- 需要一种方法可以在无监督的环境训练句子和分布之间进行映射。
- sequence autoencoders, skip-thought, paragraph vector 目前用于解决这一问题。
- 标准自动编码器无法有效提取全局语义特征,且这些模型未包含~z的先验,无法将其用于为句子分配概率或者对新句子进行采样。
- Skip-thought models (Kiroset等人,2015年)是无监督学习模型,其模型结构与序列自动编码器相同,但生成的文本取决于邻居目标文本中的句子,而不是目标句子本身。
- paragraph vector models(Le和Mikolov,2014)是非递归句子表示模型。在段落向量模型中,通过对预期编码向量执行基于梯度的推理来获得对句子的编码,目的是使用它来预测句子中的单词。
A VAE for sentences
- 当在编码器和解码器之间包括前馈网络时,使用highway network进行网络学习是必要的。
- Miao et al.(2015)引入了一种有效的基于VAE的文档级语言模型,该模型将文本建模为单词袋而不是序列,他们简短地提到必须训练网络的编码器和解码器部分交替而不是同时进行,这可能是因为无法寻址。
Optimization challenges
- 通过查看LEBO,量化模型学习程度。 The data likelihood under the posterior (expressed ascross entropy), and the kl divergence of the posterior from the prior.
- 在潜变量〜z中编码有用信息的模型将具有非零的kl发散项和相对较小的交叉熵项。
- 解码器过强导致解码器忽略编码器,两者之间几乎没有梯度信号通过,从而导致kl损失向为零的不良稳定平衡。以下提出两种方法解决。
KL Cost Annealing
- 在训练时加给KL-loss 的可变权重。
- 开始时,权重该设置为0,使模型学会在z中尽可能多的编码信息。
- 随着训练进行,逐渐增加权重,迫使模型平滑其编码并且打包到先验中。
- 当权重增加到1,加权损失函数就等于ELBO。
-
前期kl散度出现高峰,编码器将信息编入隐变量。随着权重增加,kl大幅下降,之后随着模型收敛又缓慢上升,将更多的信息编入Z。
Figure.2
Word dropout and historyless decoding
- 削弱了编码器上的惩罚项,同时减弱了解码器。
- 我们通过用通用未知单词标记unk随机替换部分条件词标记来实现。
- 此技术的参数由保持率k∈[0, 1]。我们既可以调整参数又可以调整基线参数。取k = 0的极值,解码器看不到任何输入,因此只能以到目前为止产生的字数为条件,从而产生一个模型,该模型在不使用〜z的情况下可以建模的分布种类极为有限。