GAN 1
coursera
一、生成模型和判别模型
X : Featrues
Y : Class
discriminative models 判别模型 :
X->Y
P(Y|X)
generative models 生成模型 :
Y->X
P(X|Y)
1、使用交替法训练生成模型和判别模型
2、两个模型训练时应使其水平相当
3、BN层有助于训练
二、BCE cost function
Binary Cross Entropy (BCE) Loss function
image.png
y : 标签值
h : 预测值
总的效果是若 y 与 h 接近则 J 趋于0,反之 J 趋于无穷
三、Pooling and Upsampling
Upsampling : 将当前尺寸比较小的图片上采样为尺寸比较大的图片,不使用可以训练的参数
1、Nearest Neighbors 最近邻插值 :
image.png
2、Linear interpolation 线性插值
3、Bi-linear interpolation 双线性插值
四、Transposed Convolutions (deconvolution) 转置卷积
1、转置卷积
image.png
2、checkerboard pattern 棋盘格效应 :
原因:“uneven overlap”(不均匀重叠)
实际上, 无论是存在不均匀重叠的模型还是具有均匀重叠的模型都无法完全避免棋盘格效应
https://distill.pub/2016/deconv-checkerboard/
https://blog.csdn.net/g11d111/article/details/101781549
五、Mode Collapse 模式崩塌
当生成器陷入某种固定的模式的时候,就会发生模式崩塌,模式指的是特征分布的极值,不同类别的特征可能对应不同的特征分布
六、BCE loss function 局限性
当判别器判别能力比生成器强很多的时候,BCE 损失函数会进入一个平坦区域,在平坦区域里,梯度趋近于零,导致梯度消失 vanishing gradients ,模型得不到参数更新
image.png
七、Earth Mover’s Distance (EMD) 推土机距离
基本思想是使一个分布移动到另一个分布所需要的代价,包括距离和总量
EMD在两个分布差别很大的时候也不会出现平坦区域,梯度消失的现象
image.png
八、Wasserstein Loss (W-Loss)
image.png
x : 真实图片
g(x) : 生成图片
c : 判别器,在WGAN中一般叫判别器为 Critic 与 GAN 中的判别器区分
九、Condition on Wasserstein Critic 1-Lipschitz Continuity
为了稳定地训练网络, W-Loss 需要 1-L 连续,即每一点的梯度范数不超过1 ,满足这个条件,才能使得 W-Loss 近似实现 EMD
image.png
1、Clip the weights 权重裁剪
image.png
对梯度进行裁剪,缺点是限制了模型的学习能力
2、Gradient Penalty 梯度惩罚
image.png在真实图片和生成图片之间采样,ε是一个比例参数
image.png
image.png