论文阅读：《GENERATING IMAGES FROM CAP

2020-05-21 本文已影响0人 LiBiscuit

五月中下旬了，小李近来是真的太想做个咸鱼快乐慵懒划水每一天了然而吧还是要push自己自觉更新！今日依旧是论文阅读。

论文题目：
《GENERATING IMAGES FROM CAPTIONS WITH ATTENTION》
论文地址：https://arxiv.org/abs/1511.02793
论文代码：https://github.com/emansim/text2image
论文阅读参考：https://blog.csdn.net/zlrai5895/article/details/81436570
DRAW：http://blog.sina.com.cn/s/blog_76d02ce90102xqp6.html
本文只记录个人阅读论文笔记，具体翻译等不展开，详细可见上述链接。

Background

Task(what to do)
Generates images from natural language descriptions
简而言之，就是从标题去生成图像（如下图所示）

Challenge
a. Language modelling
b.image generation
即，通常文本到图片的任务中，所面临的挑战是集中在自然语言建模（也就是文本的输入处理）和图片的生成（即生成的图是否与输入的文本具有匹配性、相干性等）。
Related work
a.Deep Neural Networks
b.Variational Auto-Encoder(VAE)
c.Generative Adversarial Networks (GANs)

Work

Do?
a. we introduce a conditional alignDRAW model, a generative model of images from captions using a soft attention mechanism
b.We further illustrate how our method, learned on Microsoft COCO generalizes to captions describing novel scenes that are not seen in the dataset
第一，基于字幕生成图像的任务，我们引入了基于条件alignDRAW模型，这是使用软注意力机制从字幕生成图像的模型。
第二，我们进一步通过Microsoft COCO数据集验证我们的方法，同时将其推广到描述数据集中未出现的新颖场景的字幕。

Model
Our proposed model defines a generative process of images conditioned on captions.The model can be viewed as a part of the sequence-to-sequence framework.
我们提出的模型是以字幕为条件的图像生成。特别是，这边的字幕为连续单词的序列，图像表示为在时间序列下在画布上绘制的patch的序列。注意，该模型可以看作是序列到序列框架。

1.LANGUAGE MODEL: THE BIDIRECTIONAL ATTENTION RNN

整个模型的大体如上图所示，这部分先介绍左边部分关于字幕文本的处理1.首先，y为输入文本，把它表示为K个编码的单词中序列y =（y1，y2，...，yN），其中K是词汇量，N是序列长度。
2.然后使用双向RNN将每个单词yi转换为m维向量表示。
3.在双向RNN中，即是具有遗忘门的两个LSTM从正向和反向处理输入序列。前向LSTM计算前向隐藏状态的序列，而后向LSTM计算后向隐藏状态的序列。然后将这些隐藏状态连接在一起，形成序列：
$h^{lang}= \left[ h_{1}^{lang},h_{2}^{lang}, \ldots ,h_{N}^{lang} \right]$ ，
其中 $h_{i}^{lang}= \left[ \overrightarrow{h}_{i}^{ lang}, \stackrel{\leftarrow}{h}_{i}^{ lang} \right] ,1≤i≤N.$
2. IMAGE MODEL: THE CONDITIONAL DRAW NETWORK
接下来这部分说一下，基于条件的绘图（生成图片）的网络

1.首先，为了生成以字幕信息y为条件的图像x，我们扩展了DRAW网络，在每一步都加入了字幕表示 ${h}^{ lang}$ （双向LSTM隐藏状态）,如上图所示。
2.条件DRAW网络是一个随机递归神经网络，以字幕即文本为条件，由一系列潜在变量组成，输出是T步的累计。
与原始DRAW网络不同的是，本文所提出的alignDRAW模型中的潜在变量的均值和方差取决于生成LSTM 中的 ${h}^{ gen}_{t-1}$ 的先前隐藏状态，z不再是独立的正态分布
通过以下参数对Zt上的先验分布的均值和方差进行参数化：其中Wμ，Wσ是学习的模型参数，n是 ${h}^{ gen}_{t}$ 的维数
形式上，通过迭代计算T步的以下方程组生成图像，其中 ${h}^{ gen}_{0}$ 和 $c_0$ 初始化为学习偏差分个方程解析
第一，对齐函数部分，即方程2
对齐函数即align函数是用于计算输入标题和中间图像生成步骤之间的对齐方式。给定来自语言模型的标题表示 $h^{lang}= \left[ h_{1}^{lang},h_{2}^{lang}, \ldots ,h_{N}^{lang} \right]$ ，align运算符使用对齐概率αt1通过加权和在每一步输出动态句子表示使用标题表示 $h ^{lang}$ 和生成模型 ${h}^{ gen}_{t-1}$ 的当前隐藏状态，获得标题中第k个单词的对应对齐概率 $α^t_k$ ：接下来，LSTM gen的函数，即方程3
LSTM网络在单个时间步上定义了遗忘门。为了生成下一个隐藏状态LSTM gen获取先前的隐藏状态并将与来自潜在样本zt和语句表示st的输入组合。
然后，方程4.
将LSTM gen函数的输出 $h^{gen}_ t$ 的输出通过write operation，之后被添加到累积画布矩阵ct。write operation产生两个数组的一维高斯滤波器组即 $F_x(h^{gen}_t)$ 和 $F_y(h^{gen}_t)$ ，其滤波器位置和比例是根据生成的LSTM隐藏状态决定的。最后将高斯滤波器组应用于生成的逐个图像块K：最后，使用S形函数σ转换来自最终画布矩阵cT的每个项，以在图像像素x上给出给定潜在变量的情况下，在h×w图像像素x上产生条件平均伯努利分布，且均值矢量输入字幕。实际上，当生成图像x时，我们仅使用条件均值 $x =σ（c_T）$ ，而不是从条件伯努利分布中采样。
(补充一下，这个工作中对于 DRAW 的改进是,在generation 时,变成了 conditional的,也就是变成了一种 conditional generative model,即p(x|y,
Z{1:T}).这个 conditional的改变,对于 performance 提升很有帮助）
3. LEARNING
损失函数
与DRAW模型类似，推理递归网络通过read operation产生近似后验 $Q(Z_{1:\tau}| x,y)$ ,read operation使用两个一维高斯滤波器阵列从输入图像x中读取色块。其中 $\hat x$ 是误差图像， $h^{infer}_0$ 初始化为学习偏差b。请注意，推理LSTM infer将取决于原始输入图像x的read operatio的输出和解码器的生成解码器 $h^{gen}_{ t -1}$ 的先前状态作为输入。因此，近似后验Q将取决于输入图像x，相应的字幕y和 $Z_{1：t -1}$ 。
因此，变分界线损失函数L的计算如下
4 GENERATING IMAGES FROM CAPTIONS

在图像生成步骤中，我们丢弃推理网络，而是从先前的分布中采样。由于DRAW模型产生的样本模糊，我们执行了一个额外的后处理步骤，在该步骤中，我们使用对抗网络(gan)训练，该网络训练了以输入的字幕表示为条件的拉普拉斯金字塔的残差。通过将对抗生成器的先验值固定为均值，可以将其视为确定性神经网络，该神经网络使我们能够在公式中定义条件数据项。

Experiments

Dataset: MICROSOFT COCO
metrics:Recall（召回率） @ K（越高越好）。 Med r是排名中位数（越低越好）。 SSI是结构相似性指数，介于1和1之间（越高越好）。
Experiments:
1.改变颜色去生成
2.接下来，我们检查了更改标题中描述的场景背景是否会导致生成的样本发生适当的更改（在保持字幕不变的情况下更改背景的示例）更改图像背景的任务比仅更改对象的颜色要难一些，因为模型必须在更宽的可视区域内进行更改。然而，如图所示，在一个标题中将天空从蓝色更改为多雨，在另一个标题中将草类型从干燥更改为绿色，这会导致生成的图像发生适当的变化。
3.交换两个在视觉上都相似的对象我们交换两个在视觉上都相似的对象（例如猫和狗）时，即使我们可能会很难从生成的样本中单独区分它是猫还是狗的图像。注意动物的形状。这突出了模型的局限性，因为它难以建模对象的细粒度细节
4.翻转字幕中的单词集后，我们进一步研究了模型在生成图像时使用了哪些单词。事实证明，在生成步骤中，模型主要集中于特定词（或附近的词），这些词带有句子中表达的主要语义。句子中单词的注意值帮助我们解释了当我们翻转某些单词时该模型进行更改的原因。
COMPARISON WITH OTHER MODELS

Conclusion

在本文中，证明了alignDRAW模型（递归变分自动编码器与单词对齐模型的组合）成功生成了与给定输入标题相对应的图像。通过广泛使用注意力机制，我们的模型获得了一些优势。即，视觉注意力机制的使用使我们能够将图像生成问题分解为一系列步骤.
alignDRAW模型倾向于输出稍微模糊的样本，所以我们通过锐化的后处理步骤扩充了模型，在该步骤中，GAN生成了添加到alignDRAW样本中的边缘。
由于不是以端到端的方式训练整个模型，所以这不是理想的解决方案。因此，未来工作的方向将是找到可以绕过单独的后处理步骤并以端到端的方式直接输出清晰图像的方法。
概括一下：
align-DRAW
本文使用自动循环编码加上注意力机制，迭代的根据文章中的单词绘制相应的部分图像，可以从在训练集中没有见过的句子生成合理的图像，利用GAN在最后一步来优化图片
生成的图像不够真实，物体区域是一块一块模糊的图像
生成的图像是低分辨率36x36的
缺点：
VAE的缺点也很明显，他是直接计算生成图片和原始图片的均方误差，而不是像GAN那样去对抗来学习，这就使得生成的图片会有点模糊
在图像领域中，由于VAE生成的图片偏模糊，因此大家通常更关心VAE作为图像特征提取器的作用。

Ending~
so tired!fighting!

论文阅读：《GENERATING IMAGES FROM CAP

Background

Work

Experiments

Conclusion

猜你喜欢

热点阅读