深度学习之文本生成图片

2018-12-13  本文已影响0人  annn_f483

Text2Image

Goal

Evaluation

VAE

Generating images from captions with attention (36 x 36)

Mansimov, Elman, Parisotto, Emilio, Ba, Lei Jimmy, and Salakhutdinov, Ruslan. Generating images from captions with attention. In Proceedings of the ICLR. 2016.

Paper链接 cited 125

Code链接 star492

会议:ICLR. 2016.

align-DRAW

缺点:

结果
image

GAN

Generative adversarial text to image synthesis (64 x 64)

Reed, Scott, Akata, Zeynep, Yan, Xinchen, Logeswaran, Lajanugen, Schiele, Bernt, and Lee, Honglak. Generative adversarial text to image synthesis. In Proceedings of ICML 2016

Paper链接 cited 634

Code链接 star 283

会议:ICML 2016

DC-GAN with encoded text features
结果
image

Learning what and where to draw (128 x 128)

Reed, Scott E, Akata, Zeynep, Mohan, Santosh, Tenka, Samuel, Schiele, Bernt, and Lee, Honglak. Learning what and where to draw. In Advances in NIPS 2016.

Paper链接 cited129

Code链接

会议:NIPS 2016

GAWWN (Generative Adversarial What-Where Network)

Plug & play generative networks: Conditional iterative generation of images in latent space(227x227)

Nguyen, Anh, Clune, Jeff, Bengio, Yoshua, Dosovitskiy, Alexey, and Yosinski, Jason. Plug & play generative networks: Conditional iterative generation of images in latent space. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017.

Paper链接 cited181

Code链接 star 484

会议:CVPR 2017

PPGAN
结果
image

StackGAN (256 x 256)

Zhang, Han, Xu, Tao, Li, Hongsheng, Zhang, Shaoting, Wang, Xiaogang, Huang, Xiaolei, and Metaxas, Dim- itris N. Stackgan: Text to photo-realistic image synthesis with stacked generative adversarial networks. In The IEEE International Conference on Computer Vision, 2017.

Paper链接 cited 318

Code链接 star 1264

Code链接 star 486

会议:ICCV 2017

挑战
本文的创新点
缺点
架构图
image

一方面从Stage-1 GAN中得到的低分辨率图像通常会缺少一些局部细节,有时候还会造成主要目标物不同程度的形变。另一方面,有些存在于文本中的重要信息,也可能被忽视。 因此,Stage-2 GAN在Stage-1的基础上进行构建。

作为Stage-1条件之一的随机变量 z,可以确保Stage-1的生成结果具有多样性。在这样的假设下,本文在Stage-2阶段并不使用 z 作为条件,而是采用Stage-1的生成结果 s0 作为条件

结果

inception的对比

inception score可以表现出类似于人的对“高质量图片”的感知能力(但是它不能准确反应出生成的图片和图片描述信息之间的相关联系)

image

上图可以看到对于多个数据集,stackGAN都取得了state-of-art的成绩

image

AttnGAN (256 x 256)

Xu, Tao, Zhang, Pengchuan, Huang, Qiuyuan, Zhang, Han, Gan, Zhe, Huang, Xiaolei, and He, Xiaodong. Attngan: Fine-grained text to image generation with attentional generative adversarial networks. CoRR, abs/1711.10485, 2017.

Paper链接 cited 37

Code链接 star513

会议:CVPR, 2018.

挑战
模型的创新点
网络结构
image

Attentional Generative Network

DAMSM:检查说明文本中的每个单词是否在实际图像中被适当地表示

结果

inception分数

image

可以看到在coco数据集上,attnGAN的分数是之前的分数的三倍左右

image

上图可以看到Attn生成的两个阶段:

缺点

Seq2Seq

Text2Scene: Generating Abstract Scenes from Textual Descriptions (Abstract Scene)

Paper链接 cited1

Code链接 无

会议:Arxiv preprint, 2018

目标
挑战
架构

TEXT2SCENE是一个数据驱动的基于Seq2Seq的端到端的模型,包括如下三个部分:

pipeline && 例子
image
评估方法
结果
image

在上述评价指标中,基本上都取得了state-of-art的结果

数据集

总结

使用cGAN的方法
Seq2Seq的方法(用在剪贴画上)
使用对话的方法
上一篇 下一篇

猜你喜欢

热点阅读