#GAN系列噜噜噜#1、GAN
Generative Adversarial Nets(2014NIPS)
原理理解了,具体数学上的定义都没看。。。被问蒙了。。。
学习不能不求甚解呜呜呜
仔细看一遍!!
Introduction
-
a generative model G that captures the data distribution, and a discriminative model D that estimates the probability that a sample came from the training data rather than G.
-
In the case where G and D are defined by multilayer perceptrons, the entire system can be trained with backpropagation
-
In this case, we can train both models using only the highly successful backpropagation and dropout algorithms and sample from the generative model using only forward propagation
Adversarial nets
- data
,生成器分布
,定义先验
,其中
为input noise variables,到data space的映射为
,其中
为用多层感知机表示的可微函数。
- 定义
,为多层感知机,输出为a single scalar。
表示
是来自data而不是
的概率。
- 给
的输入分配标签,训练
最大化损失。 同时训练
最小化
损失函数:
其中表示
在
属于
分布下的期望
the training criterion allows one to recover the data generating distribution as G and D are given enough capacity, i.e., in the non-parametric limit
训练早期,G比较差的时候,D的输入非常容易辨别,因此的梯度值会很小,不利于G的训练。因此可以用
来代替。
Theoretical Results
G含蓄的将概率分布定义为当
~
时,样本
的分布,因此,我们希望算法1能够收敛于对
的较好的估计。
Algorithm 1
- Minibatch stochastic gradient descent
- 训练D的steps
为超参数,实验中设置为1(最简单情况)
- 梯度更新可以使用标准梯度下降,实验中使用的是带动量的梯度下降。
for number of training iterations do
for k steps do
选择m个
选择m个
更新判别器梯度:
end for
选择m个
更新生成器梯度
end for
1、
的全局最优性
G固定,D的最优解为
代回可得实际训练损失,最小为-log4(满足
时)
一般情况:
可以写成Jensen–Shannon divergence(JS散度):
两种分布间的JS散度通常是非负的,且当他们相等时散度为0.
2、算法1的收敛性
损失收敛于↑
收敛于
*自己写给自己看的博客
*文章内容不保证正确
*部分内容来源于网络,侵删
今天也是元气满满的一天哦~~
冲鸭~~QWQ