什么？不喜欢用PGGAN？那试试IntroVAE！

2019-04-18 本文已影响0人 Lornatang

PGGAN中已经可以生成很棒很真实的图片了，但是由于计算量稍复杂。有人提出使用VAE和GAN的结合体IntroVAE来实现高分辨图像的合成。

一、摘要

IntroVAE能够自我评估其生成的样品的质量并相应地改进自身。它的推理和生成器模型以内省的方式共同训练。一方面，需要发生器将来自推理模型的噪声输出的输入图像重建为正常VAE。另一方面，鼓励推理模型在生成的样本和实际样本之间进行分类，而生成器试图将其作为GAN欺骗。

二、VAE与GAN两者方面各有的优缺点

VAE理论上优雅，易于训练。它们具有很好的流形表示，但会产生非常模糊的图像，缺乏细节
GAN通常会产生更清晰的图像，但在训练稳定性和采样多样性方面面临挑战，尤其是在合成高分辨率图像时。

三、本文所贡献的三种方法

我们为VAE提出了一种新的训练技术，以内省的方式训练VAE，使得模型本身估计生成的图像和真实图像之间的差异，而无需额外的鉴别器。
我们提出了用于高分辨率摄影图像合成的单流单级对抗模型，这是GAN以这种简单而有效的方式生成高分辨率图像的第一种可行方法。
方法结合了GAN和VAE的优势，产生的高分辨率照片图像与最先进的GAN产生的图像相当，同时保留了VAE的优点，如稳定训练和漂亮的潜在变化。

四、方法

对抗性分布匹配

为了使生成的样本的分布与给定训练数据的真实分布相匹配，我们使用正化术语作为对抗训练成本函数。训练推理模型以最小化，使得样本的后验分布大致匹配先前分布。

image

内省的变分推断

推理模型E和生成器G的训练对象可以重新表述如下：

image

增加重建误差，在推理模型E和发生器G之间建立了一个桥梁，并产生了VAE和GAN的特定混合模型。对于来自训练集的数据样本x，所提出的方法的对象折叠到VAE的标准ELBO对象，从而保留了VAE的属性;对于生成的样本，此对象在E和G之间生成GAN的最小 - 最大游戏，并使图片更加逼真。

五、算法表示如下

image
其中ng(.)表示此时停止了梯度的反向传播，Enc(.)表示E的映射函数，α和β是用于平衡每个项目的重要性的加权参数。

六、生成1024 * 1024 图片的结果

将我们的采样结果与PGGAN进行了比较，后者是合成高分辨率图像的最先进技术。如图所示，我们的方法能够合成与PGGAN相当的高分辨率高质量样本，这些样本都可以与真实图像区分开来。虽然PGGAN采用渐进式多阶段方式训练对称发生器和鉴别器，但我们的模型以更简单的方式进行训练，在单个阶段中迭代地训练单个推理模型和单个发生器，就像原始GAN一样。我们的方法的结果表明，通过直接使用高分辨率图像进行训练，可以合成非常高分辨率的图像，而无需将单个任务分解为多个从低到高的分辨率任务。此外，我们在图中的LSUN BEDROOM中提供了视觉质量结果，这进一步证明了我们的方法能够合成与PGGAN相当的高质量图像

LSUN BEDROOM的定性比较。

潜在空间中真实图像的插值。最左边和最右边是CelebA-HQ测试集中的真实图像，紧邻它们的图像是通过我们的模型重建的。其余的是插值。压缩图像以节省空间。

七、结论

推理模型不仅学习了一个漂亮的潜在流形结构，而且还充当了一个鉴别器，以最大化生成数据的近似后验与先验的发散。因此，所提出的IntroVAE具有内省能力，以自我估计所生成图像的质量并相应地改进其自身。

文章引用于 http://tongtianta.site/paper/22917
编辑 Lornatang
校准 Lornatang