什么?不喜欢用PGGAN?那试试IntroVAE!
PGGAN中已经可以生成很棒很真实的图片了,但是由于计算量稍复杂。有人提出使用VAE和GAN的结合体IntroVAE来实现高分辨图像的合成。
一、摘要
IntroVAE能够自我评估其生成的样品的质量并相应地改进自身。它的推理和生成器模型以内省的方式共同训练。一方面,需要发生器将来自推理模型的噪声输出的输入图像重建为正常VAE。另一方面,鼓励推理模型在生成的样本和实际样本之间进行分类,而生成器试图将其作为GAN欺骗。
二、VAE与GAN两者方面各有的优缺点
-
VAE理论上优雅,易于训练。它们具有很好的流形表示,但会产生非常模糊的图像,缺乏细节
-
GAN通常会产生更清晰的图像,但在训练稳定性和采样多样性方面面临挑战,尤其是在合成高分辨率图像时。
三、本文所贡献的三种方法
-
我们为VAE提出了一种新的训练技术,以内省的方式训练VAE,使得模型本身估计生成的图像和真实图像之间的差异,而无需额外的鉴别器。
-
我们提出了用于高分辨率摄影图像合成的单流单级对抗模型,这是GAN以这种简单而有效的方式生成高分辨率图像的第一种可行方法。
-
方法结合了GAN和VAE的优势,产生的高分辨率照片图像与最先进的GAN产生的图像相当,同时保留了VAE的优点,如稳定训练和漂亮的潜在变化。
四、方法
- 对抗性分布匹配
为了使生成的样本的分布与给定训练数据的真实分布相匹配,我们使用正化术语作为对抗训练成本函数。训练推理模型以最小化,使得样本的后验分布大致匹配先前分布。
image
- 内省的变分推断
推理模型E和生成器G的训练对象可以重新表述如下:
image
增加重建误差,在推理模型E和发生器G之间建立了一个桥梁,并产生了VAE和GAN的特定混合模型。对于来自训练集的数据样本x,所提出的方法的对象折叠到VAE的标准ELBO对象,从而保留了VAE的属性;对于生成的样本,此对象在E和G之间生成GAN的最小 - 最大游戏,并使图片更加逼真。
五、算法表示如下
image其中ng(.)表示此时停止了梯度的反向传播,Enc(.)表示E的映射函数,α和β是用于平衡每个项目的重要性的加权参数。
六、生成1024 * 1024 图片的结果
将我们的采样结果与PGGAN进行了比较,后者是合成高分辨率图像的最先进技术。如图所示,我们的方法能够合成与PGGAN相当的高分辨率高质量样本,这些样本都可以与真实图像区分开来。虽然PGGAN采用渐进式多阶段方式训练对称发生器和鉴别器,但我们的模型以更简单的方式进行训练,在单个阶段中迭代地训练单个推理模型和单个发生器,就像原始GAN一样。我们的方法的结果表明,通过直接使用高分辨率图像进行训练,可以合成非常高分辨率的图像,而无需将单个任务分解为多个从低到高的分辨率任务。此外,我们在图中的LSUN BEDROOM中提供了视觉质量结果,这进一步证明了我们的方法能够合成与PGGAN相当的高质量图像
LSUN BEDROOM的定性比较。 潜在空间中真实图像的插值。最左边和最右边是CelebA-HQ测试集中的真实图像,紧邻它们的图像是通过我们的模型重建的。其余的是插值。压缩图像以节省空间。七、结论
推理模型不仅学习了一个漂亮的潜在流形结构,而且还充当了一个鉴别器,以最大化生成数据的近似后验与先验的发散。因此,所提出的IntroVAE具有内省能力,以自我估计所生成图像的质量并相应地改进其自身。
文章引用于 http://tongtianta.site/paper/22917
编辑 Lornatang
校准 Lornatang