GAN、CGAN、INN

2019-02-11 本文已影响0人申申申申申申

INN 旨在从无法直接确定的复杂关系中解决逆向关系的问题，它的原理和使用范围在诸多论文当中尚不明确，但是在已知的资料当中，他的原理与GAN类似，并且在多篇论文中使用其与GAN进行对比。所以这篇文章将 INN 和 GAN 对比起来进行学习。

GAN

GAN的全称为Generative Adversarial Net——生成对抗网络。

GAN的思想是是一种二人零和博弈思想（two-player game），博弈双方的利益之和是一个常数，比如两个人掰手腕，假设总的空间是一定的，你的力气大一点，那你就得到的空间多一点，相应的我的空间就少一点，相反我力气大我就得到的多一点，但有一点是确定的就是，我两的总空间是一定的，这就是二人博弈，但是呢总利益是一定的。

引申到GAN里面就是可以看成，GAN中有两个这样的博弈者，一个人名字是生成模型（G），另一个人名字是判别模型（D）。他们各自有各自的功能。

这两个模型的相同点是：都可以看成是一个黑匣子，接受输入然后有一个输出，类似一个函数，一个输入输出映射。

这两个模型不同点是：
生成模型功能：比作是一个样本生成器，输入一个噪声，然后把它包装成一个逼真的样本，也就是输出。
关于生成模型在这里补充一下，为什么我们输入一个噪声（满足维度要求的随机数）之后，生成模型就能做出一个逼真的样本呢？实际上，在我们对生成模型不断训练的过程中，它会找到原始样本集最本质的特征并为其建模，例如，如果原始样本集是人脸集合，那么在不断地训练过程中，人脸特征就会被生成模型捕捉到，而生成结果随着输入的噪声的不同而得到不同人的脸，但是由于模型捕捉到了人脸的本质特征，所以无论噪声是什么，始终输出的都是一张真实的人脸图像。这里不需要过多神经网络的知识，你只需要知道生成模型是一个神经网络黑盒子，它通过g(X)=Y这样的映射，X是m维输入噪声，Y是n维的输出结果，n=样本集大小（例如n=256=16 * 16），g就是我们的神经网络。生成模型的理解对INN十分重要，一定要把生成模型充分理解清楚

判别模型：比作一个二分类器（如同0-1分类器），来判断输入的样本是真是假。（就是输出值大于0.5还是小于0.5）;

下面来看一个简单的示意图

image

GAN与通常意义上的监督学习不一样，在这里我们应该明确两点：
1、我们有什么？
比如上面的这个图，我们有的只是真实采集而来的人脸样本数据集，仅此而已，而且很关键的一点是我们连人脸数据集的类标签都没有，也就是我们不知道那个人脸对应的是谁。

2、我们要得到什么
至于要得到什么，不同的任务得到的东西不一样，我们只说最原始的GAN目的，那就是我们想通过输入一个噪声，模拟得到一个人脸图像，这个图像可以非常逼真以至于以假乱真。

好了再来理解下GAN的两个模型要做什么。首先判别模型，就是图中右半部分的网络，直观来看就是一个简单的神经网络结构，输入就是一副图像，输出就是一个概率值，用于判断真假使用（概率值大于0.5那就是真，小于0.5那就是假），真假也不过是人们定义的概率而已。其次是生成模型，生成模型要做什么呢，同样也可以看成是一个神经网络模型，输入是一组随机数Z，输出是一个图像，不再是一个数值而已。从图中可以看到，会存在两个数据集，一个是真实数据集，这好说，另一个是假的数据集，那这个数据集就是有生成网络造出来的数据集。好了根据这个图我们再来理解一下GAN的目标是要干什么：

判别网络的目的：就是能判别出来属于的一张图它是来自真实样本集还是假样本集。假如输入的是真样本，网络输出就接近1，输入的是假样本，网络输出接近0。

生成网络的目的：生成网络是造样本的，它的目的就是使得自己造样本的能力尽可能强，强到什么程度呢，你判别网络没法判断我是真样本还是假样本。

有了这个理解我们再来看看为什么叫做对抗网络了。判别网络说，我很强，来一个样本我就知道它是来自真样本集还是假样本集。生成网络就不服了，说我也很强，我生成一个假样本，虽然我生成网络知道是假的，但是你判别网络不知道呀，我包装的非常逼真，以至于判别网络无法判断真假，那么用输出数值来解释就是，生成网络生成的假样本进去了判别网络以后，判别网络给出的结果是一个接近0.5的值，极限情况就是0.5。

说到这里，我想对GAN有一个浅层的印象了，下面我们一起谈论一些细节。我们的生成模型容易理解（先暂且不谈它的训练过程），但是我们的判别模型如何进行判别是刚刚没有谈论到的问题，由于判别模型是一个分类器（有监督学习），我们对其进行训练需要把输入样本的标签告诉它，它包含的输入包括了真实图像和生成模型生成的假图像，所以我们生成模型生成出来的图像标签应该为0（假图像），真实样本输入的标签应该为1（真图像），在不断学习的过程中，如果生成模型真的把真实样本的本质分布学会了，那么判别模型对样本就会出现误判（或出现均衡）的情况。

下图是GAN的一个简单训练过程示意图

image

需要注意的是生成模型与对抗模型可以说是完全独立的两个模型，好比就是完全独立的两个神经网络模型，他们之间没有什么联系。

好了那么训练这样的两个模型的大方法就是：单独交替迭代训练。

什么意思？因为是2个网络，不好一起训练，所以才去交替迭代训练，我们一一来看。

判别模型训练

假设现在生成网络模型已经有了（当然可能不是最好的生成网络），那么给一堆随机数组（噪声），就会得到一堆假的样本集（因为不是最终的生成模型，那么现在生成网络可能就处于劣势，导致生成的样本就不咋地，可能很容易就被判别网络判别出来了说这货是假冒的），但是先不管这个，假设我们现在有了这样的假样本集，真样本集一直都有，现在我们人为的定义真假样本集的标签，因为我们希望真样本集的输出尽可能为1，假样本集为0，很明显这里我们就已经默认真样本集所有的类标签都为1，而假样本集的所有类标签都为0。我们现在有了真样本集以及它们的label（都是1）、假样本集以及它们的label（都是0），这样单就判别网络来说，此时问题就变成了一个再简单不过的有监督的二分类问题了，直接送到神经网络模型中训练就完事了。

生成模型训练

对于生成网络，想想我们的目的，是生成尽可能逼真的样本。那么原始的生成网络生成的样本你怎么知道它真不真呢？就是送到判别网络中，所以在训练生成网络的时候，我们需要联合判别网络一起才能达到训练的目的。什么意思？就是如果我们单单只用生成网络，那么想想我们怎么去训练？误差来源在哪里？细想一下，其实如果我们把刚才的判别网络串接在生成网络的后面，这样我们就知道真假了，也就有了误差了。所以对于生成网络的训练其实是对生成-判别网络串接的训练，就像图中显示的那样。好了那么现在来分析一下样本，原始的噪声数组Z我们有，也就是生成了假样本我们有，此时很关键的一点来了，我们要把这些假样本的标签都设置为1(注意，这里不是对判别模型的训练，而是对生成模型的训练)，也就是认为这些假样本在生成网络训练的时候是真样本。那么为什么要这样呢？我们想想，是不是这样才能起到迷惑判别器的目的，也才能使得生成的假样本逐渐逼近为正样本。
好了，重新顺一下思路，现在对于生成网络的训练，我们有了样本集（只有假样本集，没有真样本集），有了对应的label（全为1），是不是就可以训练了？有人会问，这样只有一类样本，训练啥呀？谁说一类样本就不能训练了？只要有误差就行。还有人说，你这样一训练，判别网络的网络参数不是也跟着变吗？没错，这很关键，所以在训练这个串接的网络的时候，一个很重要的操作就是不要判别网络的参数发生变化，也就是不让它参数发生更新，只是把误差一直传，传到生成网络那块后更新生成网络的参数。这样就完成了生成网络的训练了。

在完成生成网络训练好，那么我们是不是可以根据目前新的生成网络再对先前的那些噪声Z生成新的假样本了，没错，并且训练后的假样本应该是更真了才对。然后又有了新的真假样本集（其实是新的假样本集），这样又可以重复上述过程了。我们把这个过程称作为单独交替训练。我们可以实现定义一个迭代次数，交替迭代到一定次数后停止即可。这个时候我们再去看一看噪声Z生成的假样本会发现，原来它已经很真了。

看完了这个过程感觉到 GAN 的设计真的很巧妙，最值得称赞的地方可能在于这种假样本在训练过程中的真假变换，这也是博弈得以进行的关键之处。

在最后放上GAN的求解公式，二元极小极大博弈（minimax two-player game）”问题:

CGAN（Conditional Generative Adversarial Networks）

在上述简要叙述的 GAN 中，想必已经清楚了生成对抗网络的基本运作原理。与其他生成式模型相比，GAN这种竞争的方式不再要求一个假设的数据分布，即不需要假定一个 p(x)，而是使用一种分布直接进行采样 sampling，从而真正达到理论上可以完全逼近真实数据，这也是 GAN 最大的优势。然而，这种不需要预先建模的方法缺点是太过自由了，对于较大的图片，较多的 pixel 的情形，基于简单 GAN 的方式就不太可控了。为了解决 GAN 太过自由这个问题，一个很自然的想法是给 GAN 加一些约束，于是便有了 CGAN。这项工作提出了一种带条件约束的 GAN，在生成模型（D）和判别模型（G）的建模中均引入条件变量 y（conditional variable y），使用额外信息 y 对模型增加条件，可以指导数据生成过程。

条件生成式对抗网络（CGAN）是对原始 GAN 的一个扩展，生成器和判别器都增加额外信息 y 为条件, y 可以是任意信息,例如类别信息，或者其他模态的数据。通过将额外信息 y 输送给判别模型和生成模型,作为输入层的一部分,从而实现条件 GAN。在生成模型中，先验输入噪声 p(z) 和条件信息y联合组成了联合隐层表征。对抗训练框架在隐层表征的组成方式方面相当地灵活。

类似地，条件GAN的目标函数是带有条件概率的二人极小极大值博弈（two-player minimax game ）：

仔细看第二个式子，和 INN 的逆向传播过程很像。

INN

上面部分就是 GAN 的简单原理和训练流程，那么它和 INN 的关系是什么样的呢？论文《ANALYZING INVERSE PROBLEMS WITH INVERTIBLE NEURAL NETWORKS》中提到：

We are the first to recognize and exploit the potential of Invertible Neural Networks (INNs) as conditional generative models.

它们同样是生成模型（在 INN 逆过程中），不过 INN 是一种以 y 为条件的，z 为噪声的条件生成模型，这与 CGAN 很类似。

论文中还有一段话：

To counteract the inherent information loss of the forward process, we introduce additional latent output variables z, which are trained to capture the information about x that is not contained in y. Thus, our INN maps pairs [y, z] of measurements and latent variables back to unique hidden parameter values x. In addition, we train the network to shape the density p(z) of the latent variables according to a Gaussian distribution. In other words, the posterior p(x|y) is reparametrized into a deterministic function x = g(y, z) that transforms the known distribution p(z) to x-space, conditional on y. In practice, we fix y at an actual measurement and sample z repeatedly from p(z), so that the the corresponding inverses form a sample of the desired posterior p(x|y).

看最后两句话，我们可以理解，当我们的 p(z) 被训练完成后，这时候我们的生成模型 G 会在满足 p(z) 分布的潜在变量 z 中不断取出不同的值，这里可以理解为 GAN 的噪声（GAN 的噪声同样需要满足一定分布规律），然后以y为生成条件，得到计算出的 x*（x是样本），再使 x 和 x * 协同进行训练。

GAN、CGAN、INN

GAN

判别模型训练

生成模型训练

CGAN（Conditional Generative Adversarial Networks）

INN

猜你喜欢

热点阅读