GAN、CGAN、INN
INN 旨在从无法直接确定的复杂关系中解决逆向关系的问题,它的原理和使用范围在诸多论文当中尚不明确,但是在已知的资料当中,他的原理与GAN类似,并且在多篇论文中使用其与GAN进行对比。所以这篇文章将 INN 和 GAN 对比起来进行学习。
GAN
GAN的全称为Generative Adversarial Net——生成对抗网络。
GAN的思想是是一种二人零和博弈思想(two-player game),博弈双方的利益之和是一个常数,比如两个人掰手腕,假设总的空间是一定的,你的力气大一点,那你就得到的空间多一点,相应的我的空间就少一点,相反我力气大我就得到的多一点,但有一点是确定的就是,我两的总空间是一定的,这就是二人博弈,但是呢总利益是一定的。
引申到GAN里面就是可以看成,GAN中有两个这样的博弈者,一个人名字是生成模型(G),另一个人名字是判别模型(D)。他们各自有各自的功能。
这两个模型的相同点是:都可以看成是一个黑匣子,接受输入然后有一个输出,类似一个函数,一个输入输出映射。
这两个模型不同点是:
生成模型功能:比作是一个样本生成器,输入一个噪声,然后把它包装成一个逼真的样本,也就是输出。
关于生成模型在这里补充一下,为什么我们输入一个噪声(满足维度要求的随机数)之后,生成模型就能做出一个逼真的样本呢?实际上,在我们对生成模型不断训练的过程中,它会找到原始样本集最本质的特征并为其建模,例如,如果原始样本集是人脸集合,那么在不断地训练过程中,人脸特征就会被生成模型捕捉到,而生成结果随着输入的噪声的不同而得到不同人的脸,但是由于模型捕捉到了人脸的本质特征,所以无论噪声是什么,始终输出的都是一张真实的人脸图像。这里不需要过多神经网络的知识,你只需要知道生成模型是一个神经网络黑盒子,它通过g(X)=Y这样的映射,X是m维输入噪声,Y是n维的输出结果,n=样本集大小(例如n=256=16 * 16),g就是我们的神经网络。生成模型的理解对INN十分重要,一定要把生成模型充分理解清楚
判别模型:比作一个二分类器(如同0-1分类器),来判断输入的样本是真是假。(就是输出值大于0.5还是小于0.5);
下面来看一个简单的示意图
imageGAN与通常意义上的监督学习不一样,在这里我们应该明确两点:
1、我们有什么?
比如上面的这个图,我们有的只是真实采集而来的人脸样本数据集,仅此而已,而且很关键的一点是我们连人脸数据集的类标签都没有,也就是我们不知道那个人脸对应的是谁。
2、我们要得到什么
至于要得到什么,不同的任务得到的东西不一样,我们只说最原始的GAN目的,那就是我们想通过输入一个噪声,模拟得到一个人脸图像,这个图像可以非常逼真以至于以假乱真。
好了再来理解下GAN的两个模型要做什么。首先判别模型,就是图中右半部分的网络,直观来看就是一个简单的神经网络结构,输入就是一副图像,输出就是一个概率值,用于判断真假使用(概率值大于0.5那就是真,小于0.5那就是假),真假也不过是人们定义的概率而已。其次是生成模型,生成模型要做什么呢,同样也可以看成是一个神经网络模型,输入是一组随机数Z,输出是一个图像,不再是一个数值而已。从图中可以看到,会存在两个数据集,一个是真实数据集,这好说,另一个是假的数据集,那这个数据集就是有生成网络造出来的数据集。好了根据这个图我们再来理解一下GAN的目标是要干什么:
判别网络的目的:就是能判别出来属于的一张图它是来自真实样本集还是假样本集。假如输入的是真样本,网络输出就接近1,输入的是假样本,网络输出接近0。
生成网络的目的:生成网络是造样本的,它的目的就是使得自己造样本的能力尽可能强,强到什么程度呢,你判别网络没法判断我是真样本还是假样本。
有了这个理解我们再来看看为什么叫做对抗网络了。判别网络说,我很强,来一个样本我就知道它是来自真样本集还是假样本集。生成网络就不服了,说我也很强,我生成一个假样本,虽然我生成网络知道是假的,但是你判别网络不知道呀,我包装的非常逼真,以至于判别网络无法判断真假,那么用输出数值来解释就是,生成网络生成的假样本进去了判别网络以后,判别网络给出的结果是一个接近0.5的值,极限情况就是0.5。
说到这里,我想对GAN有一个浅层的印象了,下面我们一起谈论一些细节。我们的生成模型容易理解(先暂且不谈它的训练过程),但是我们的判别模型如何进行判别是刚刚没有谈论到的问题,由于判别模型是一个分类器(有监督学习),我们对其进行训练需要把输入样本的标签告诉它,它包含的输入包括了真实图像和生成模型生成的假图像,所以我们生成模型生成出来的图像标签应该为0(假图像),真实样本输入的标签应该为1(真图像),在不断学习的过程中,如果生成模型真的把真实样本的本质分布学会了,那么判别模型对样本就会出现误判(或出现均衡)的情况。
下图是GAN的一个简单训练过程示意图
image需要注意的是生成模型与对抗模型可以说是完全独立的两个模型,好比就是完全独立的两个神经网络模型,他们之间没有什么联系。
好了那么训练这样的两个模型的大方法就是:单独交替迭代训练。
什么意思?因为是2个网络,不好一起训练,所以才去交替迭代训练,我们一一来看。
判别模型训练
假设现在生成网络模型已经有了(当然可能不是最好的生成网络),那么给一堆随机数组(噪声),就会得到一堆假的样本集(因为不是最终的生成模型,那么现在生成网络可能就处于劣势,导致生成的样本就不咋地,可能很容易就被判别网络判别出来了说这货是假冒的),但是先不管这个,假设我们现在有了这样的假样本集,真样本集一直都有,现在我们人为的定义真假样本集的标签,因为我们希望真样本集的输出尽可能为1,假样本集为0,很明显这里我们就已经默认真样本集所有的类标签都为1,而假样本集的所有类标签都为0。 我们现在有了真样本集以及它们的label(都是1)、假样本集以及它们的label(都是0),这样单就判别网络来说,此时问题就变成了一个再简单不过的有监督的二分类问题了,直接送到神经网络模型中训练就完事了。
生成模型训练
对于生成网络,想想我们的目的,是生成尽可能逼真的样本。那么原始的生成网络生成的样本你怎么知道它真不真呢?就是送到判别网络中,所以在训练生成网络的时候,我们需要联合判别网络一起才能达到训练的目的。什么意思?就是如果我们单单只用生成网络,那么想想我们怎么去训练?误差来源在哪里?细想一下,其实如果我们把刚才的判别网络串接在生成网络的后面,这样我们就知道真假了,也就有了误差了。所以对于生成网络的训练其实是对生成-判别网络串接的训练,就像图中显示的那样。好了那么现在来分析一下样本,原始的噪声数组Z我们有,也就是生成了假样本我们有,此时很关键的一点来了,我们要把这些假样本的标签都设置为1(注意,这里不是对判别模型的训练,而是对生成模型的训练),也就是认为这些假样本在生成网络训练的时候是真样本。那么为什么要这样呢?我们想想,是不是这样才能起到迷惑判别器的目的,也才能使得生成的假样本逐渐逼近为正样本。
好了,重新顺一下思路,现在对于生成网络的训练,我们有了样本集(只有假样本集,没有真样本集),有了对应的label(全为1),是不是就可以训练了?有人会问,这样只有一类样本,训练啥呀?谁说一类样本就不能训练了?只要有误差就行。还有人说,你这样一训练,判别网络的网络参数不是也跟着变吗?没错,这很关键,所以在训练这个串接的网络的时候,一个很重要的操作就是不要判别网络的参数发生变化,也就是不让它参数发生更新,只是把误差一直传,传到生成网络那块后更新生成网络的参数。这样就完成了生成网络的训练了。
在完成生成网络训练好,那么我们是不是可以根据目前新的生成网络再对先前的那些噪声Z生成新的假样本了,没错,并且训练后的假样本应该是更真了才对。然后又有了新的真假样本集(其实是新的假样本集),这样又可以重复上述过程了。我们把这个过程称作为单独交替训练。我们可以实现定义一个迭代次数,交替迭代到一定次数后停止即可。这个时候我们再去看一看噪声Z生成的假样本会发现,原来它已经很真了。
看完了这个过程感觉到 GAN 的设计真的很巧妙,最值得称赞的地方可能在于这种假样本在训练过程中的真假变换,这也是博弈得以进行的关键之处。
在最后放上GAN的求解公式,二元极小极大博弈(minimax two-player game)”问题:
CGAN(Conditional Generative Adversarial Networks)
在上述简要叙述的 GAN 中,想必已经清楚了生成对抗网络的基本运作原理。与其他生成式模型相比,GAN这种竞争的方式不再要求一个假设的数据分布,即不需要假定一个 p(x),而是使用一种分布直接进行采样 sampling,从而真正达到理论上可以完全逼近真实数据,这也是 GAN 最大的优势。然而,这种不需要预先建模的方法缺点是太过自由了,对于较大的图片,较多的 pixel 的情形,基于简单 GAN 的方式就不太可控了。为了解决 GAN 太过自由这个问题,一个很自然的想法是给 GAN 加一些约束,于是便有了 CGAN。这项工作提出了一种带条件约束的 GAN,在生成模型(D)和判别模型(G)的建模中均引入条件变量 y(conditional variable y),使用额外信息 y 对模型增加条件,可以指导数据生成过程。
条件生成式对抗网络(CGAN)是对原始 GAN 的一个扩展,生成器和判别器都增加额外信息 y 为条件, y 可以是任意信息,例如类别信息,或者其他模态的数据。通过将额外信息 y 输送给判别模型和生成模型,作为输入层的一部分,从而实现条件 GAN。在生成模型中,先验输入噪声 p(z) 和条件信息y联合组成了联合隐层表征。对抗训练框架在隐层表征的组成方式方面相当地灵活。
类似地,条件GAN的目标函数是带有条件概率的二人极小极大值博弈(two-player minimax game ):
仔细看第二个式子,和 INN 的逆向传播过程很像。
INN
上面部分就是 GAN 的简单原理和训练流程,那么它和 INN 的关系是什么样的呢?论文《ANALYZING INVERSE PROBLEMS WITH INVERTIBLE NEURAL NETWORKS》中提到:
We are the first to recognize and exploit the potential of Invertible Neural Networks (INNs) as conditional generative models.
它们同样是生成模型(在 INN 逆过程中),不过 INN 是一种以 y 为条件的,z 为噪声的条件生成模型,这与 CGAN 很类似。
论文中还有一段话:
To counteract the inherent information loss of the forward process, we introduce additional latent output variables z, which are trained to capture the information about x that is not contained in y. Thus, our INN maps pairs [y, z] of measurements and latent variables back to unique hidden parameter values x. In addition, we train the network to shape the density p(z) of the latent variables according to a Gaussian distribution. In other words, the posterior p(x|y) is reparametrized into a deterministic function x = g(y, z) that transforms the known distribution p(z) to x-space, conditional on y. In practice, we fix y at an actual measurement and sample z repeatedly from p(z), so that the the corresponding inverses form a sample of the desired posterior p(x|y).
看最后两句话,我们可以理解,当我们的 p(z) 被训练完成后,这时候我们的生成模型 G 会在满足 p(z) 分布的潜在变量 z 中不断取出不同的值,这里可以理解为 GAN 的噪声(GAN 的噪声同样需要满足一定分布规律),然后以y为生成条件,得到计算出的 x*(x是样本), 再使 x 和 x * 协同进行训练。