BEGAN边界平衡生成对抗网络

2021-04-03  本文已影响0人  路过的飞碟

解决问题:GAN训练模型较为困难

做法:BEGAN并没有直接去估计生成分布 pg 和真实分布 px 的距离,而是估计两者分布误差的距离。

分布之间的误差分布相近的话,也可以认为 pg 和 px 是相近的。

BEGAN 将判别器 G 设计成自编码器用来重构分布误差,并优化分
布误差之间的距离,如下式:

BEGAN 提出一种均衡概念,用以平衡 G 和 D 的训练,使 GAN 即使使用很简单的网络,不加如 BN、minibath 等训练技巧也能得到很好的训练效果。
同时还提出了一种能够在样本多样性和样本质量上均衡的超参数以及衡量模型收敛性的方法。
实验中发现 BEGAN 收敛很快,并且 G 和 D 训练平衡,但超参数的选取比较考验经验。

1.使得GAN具有快速而稳定的收敛的标准训练过程。
2.引入均衡概念,均衡鉴别器和发生器的功率。
3.提供控制图像多样性和视觉质量之间权衡的新方法
4.收敛的近似度量

使用自动编码器作为鉴别器,使用从瓦瑟斯坦距离(类似于我先前提到的KL散度,具有正定性,对称性,三角不等式特性)导出的损失来匹配自动编码器损失分布。

L:R^Nx->R+训练像素式自动编码器的1.损失函数:
BEGAN中提出了一种思路,它使用了自动编码器做为判别器 D,它所做的是尽可能地匹配误差的分布而不是直接匹配样本的分布,如果误差的分布之间足够的接近,那么真实的样本之间的分布也会足够的接近。

D:自动编码器功能
n:是目标标准
v:是Nx维度的样例

u1,2是自动编码器损失函数的两个分布
Γ(u1,u2)是1和2的所有组合的集合
m1,2∈R是他们各自的平均值
瓦瑟斯坦距离为:

其中x1和x2是从

利用詹森不等式,可以导出W1(u1,u2)的下界:

目标是优化自动编码器损失分布之间的瓦瑟斯坦距离的下限,而不是样本分布之间的下限。

设计鉴频器,使自动编码器损耗之间的等式1最大化。
设u1为损失L(x)的分布,其中x为实样本。
设u2为损失L(G(z))的分布
其中G : RNz →RNx为生成函数
z∈[-1,1]Nz为维数Nz的均匀随机样本

由于m1,m2 ∈R+到达最大化| m1-m2 |只有两种可能的解决方案:

选择解决方案(b)作为我们的目标,因为最小化m1自然会导致对真实图像的自动编码。
给定鉴别器和发生器参数θD和θG
每个参数都通过最小化损耗LD和LG来更新
将问题表示为GAN目标,其中zD和zG是z的样本:

在BEGAN中G和D对应的损失函数:

2.引入平衡:

当产生器和鉴别器损失之间保持平衡,满足情况:

生成的样本不能被鉴别器从真实样本中区分出来,那么它们的误差分布包括预期误差应该是相同的,使得其均衡。

γ引入来平衡D既可以对真实图像自动编码,又可以正确的判别输入的样本。γ很小时,说明分母部分值很大,那么此时模型专注于识别的正确率,则出现G只生成可以骗过D的图像

鉴别器有两个相互竞争的目标:
1.自动编码真实图像和从生成的图像中鉴别真实图像。
2.γ项让我们平衡这两个目标。
较低的γ值导致较低的图像多样性,因为鉴别器更侧重于自动编码真实图像。
将γ称为分集比。有一个自然的边界,图像清晰,有细节。


对于θD和θG和每一训练步t,来说的目标
γ∈[0,1]是一个超参数,值越小代表生成的样本多样性越低
λk是 kt + 1 的更新步长,kt表示对D判别能力的重视度

采用比例控制理论来维持平衡

这是使用一个变量kt ∈[0,1]来实现的,以控制在梯度下降过程中对L(G(zD))的重视程度。
我们初始化k0 = 0.λk是k的比例增益;
在机器学习术语中,它是k的学习率。
我们在实验中使用了0.001。
本质上,这可以被认为是闭环反馈控制的一种形式,其中kt在每一步被调整以保持等式4。
在早期训练阶段,G倾向于为自动编码器生成易于重建的数据,因为生成的数据接近于0,并且还没有准确地了解真实的数据分布。
这时L(X)>L(G(z))
与需要交替训练 D 和 G 或预训练 D 的传统训练相比,BEGAN提出的方法开始不需要稳定训练。
Adam在训练中使用默认的超参数
θD 和 θG 基于各自的损失通过独立的Adam优化器独立更新。
我们通常使用 n = 16 的批量。
3.全局收敛度量:

确定 GANs 的收敛性通常是一项困难的任务,因为最初的公式被定义为零和博弈。
结果,一个亏损上升,另一个亏损下降。

我们通过使用平衡概念导出了收敛的全局度量:我们可以将收敛过程框架为找到比例控制算法(控制装置输出信号与输人信号间呈线性关系的控制作用数学表示法)|γL(x)-L(G(Zg))|的瞬时过程误差绝对值最小的最近重构L(x)。这一衡量标准由两项和:

该度量可用于确定网络何时达到其最终状态模型是否已崩溃也即是模型是否收敛。

4.模型架构
鉴别器:RNx->RNx是一个卷积深度神经网络,其架构为自动编码器。
Nx = H × W × C 是x 尺寸的简写
其中 H、 W、 C 是高度、宽度和颜色。

我们使用自动编码器和深度编码器和解码器。目的是尽可能简单,以避免典型的GAN诡计。
结构如图 1 所示。我们使用了 3 × 3 的卷积,在它们的输出端应用了指数线性单位。
每层重复多次(通常为 2 次)。我们观察到,重复次数越多,视觉效果越好。
卷积滤波器随着每次下采样线性增加。
下采样作为步长为 2 的子采样实现,上采样由最近邻完成。
在编码器和解码器之间的边界处,经过处理的数据的张量通过完全连接的层被映射到嵌入状态 h ∈RNh 和从嵌入状态 h∈ RNh 来,其中 Nh 是自动编码器的隐藏状态的维度,而没有任何非线性。

生成器G : RNz → RNx 使用与鉴别器解码器相同的架构(虽然权重不同)。
但为了简化。输入状态为均匀采样的 z∈ [-1, 1]Nz。
这个简单的架构实现了高质量的结果,并展示了技术的健壮性。
此外,可选的细化有助于梯度传播,并产生更清晰的图像。受深度残差网络[8]的启发,使用消失残差初始化网络:对于连续的相同大小的层,层的输入与其输出相结合:inx+1 =carry×inx+(1 carry)×outx。
在实验中,我们从进位= 1 开始,经过 16000 步
逐渐减少到 0。
我们还引入了跳跃连接[8, 17, 9]来帮助梯度传播。第一解码器张量 h0 是通过将 h 投影到 8 × 8 × n 张量而获得的。在每个上采样步骤之后,输出与上采样到相同维数的 h0 连接。
这在隐藏状态和解码器的每个连续上采样层之间创建了跳跃连接。
我们没有探索 GANs 中通常使用的其他技术,如批量归一化、缺失、转置卷积或卷积滤波器的指数增长,尽管它们可能会进一步改进这些结果

5.通过实验来理解

变 γ 的值时,模型生成结果的多样性和质量对比效果如下所示,从中可以看出
γ值越小,生成的图像越清晰,也更接近;
γ值越大,多样性提高了,但是图像的质量同样也下降了

BEGAN的空间连续性与其他GAN相比表现更优异:

伴随着模型收敛,图像质量也在不断提升

总之:BEGAN针对 GAN 训练难易度难、控制生成样本多样性难、平衡鉴别器和生成器收敛难等问题,做出了很大的改善。

参考论文:Berthelot D, Schumm T, Metz L. BEGAN: boundary equilibrium generative adversarial networks[J]. arXiv:1703.10717,
2017

上一篇下一篇

猜你喜欢

热点阅读