生成对抗网络（Generative Adversarial Ne

2022-01-08 本文已影响0人偶尔写一写

1 生成对抗网络概述

有时候我们希望网络具有一定的创造力，比如画画、编曲等等，能否实现呢？是可以实现的，大家可以鉴别一下下面这几张照片，哪些是真实的人脸，哪些是机器生成的人脸。很难判断吧？本节最后会给出答案。

到底哪些是机器产生的？
要实现上述能力，就要用到一种新的网络架构— 生成对抗网络（Generative Adversarial Net，GAN
）。首先，我们大概来了解一下什么是 “生成” ，什么是 “对抗”。

8.1.1 对“生成”的理解

假设我们设计一个网络，将其称为 “生成器（Generator）”。生成器的输入是一个向量 $z$ ，该向量一般是低维向量，它是通过一个特定的分布采样出来的，例如正态分布。生成器的输出是另一个向量 $y$ ，该向量是一个高维向量，比如一个二次元的人脸。由于生成器的输入向量是通过一个分布随机采样的，所以输入向量每次都是不一样的，因此生成器每次的输出也是不一样的，会形成一个复杂的分布。尽管输出向量不一样，但是我们要求这些输出向量都是二次元的人脸，而不是其它。也就是说期望生成器输出的复杂分布要和某个特定分布（例如所有二次元人脸的集合）尽可能相似，如何做到呢？这就要用到“对抗”。

生成（Generator）

1.2 对“对抗”的理解

我们常说要“感谢对手”，为什么呢？因为对手逼得我们不断想办法进步，最后让我们进化成长为优秀的人。为了使生成网络不断进化以成为画画高手，我们还需要训练另外一个网络，叫做 “鉴别器（Discriminator）” 。鉴别器是专门用来和生成网络进行对抗的，就是用它来逼得生成网络不断进化。鉴别器的输入是一张图片，它的输出则是一个0-1的数字，数字越大就越认为这张图片是一个二次元图片，数字越小呢就越认为这张图片不是一个二次元图片。比如下图中上面两张图片很清楚是二次元，所以鉴别器输出1.0，而下面两张图片很模糊，所以鉴别器输出0.1。因此，简单点讲，鉴别器的功能就是判断某张图片到底是不是二次元图片。

鉴别器
现在我们把这个鉴别器拿过来和生成器进行对抗：

①版本1的生成器的参数是随机生成的，所以其生成的图片啥都不是。这时候，我们对鉴别器进行训练，以使鉴别器能够鉴别出哪些是生成器生成的图片，哪些是真实的二次元人脸。经过训练后，我们得到了版本1的鉴别器。
②在版本1的鉴别器的基础上，我们再来训练生成器，训练的目的是让鉴别器分辨不出哪些是生成器生成的图片，哪些是真实的二次元人脸。通过训练之后，得到了版本2的生成器，此时生成的图片有一点点像二次元了，足以骗过版本1的鉴别器。
③在版本2的生成器的基础上，我们接着训练鉴别器，同样是要使鉴别器能够鉴别出哪些是版本2生成器生成的图片，哪些是真实的二次元人脸。通过训练之后，得到了版本2的鉴别器。
④重复上述过程，不断进化生成器和鉴别器，最后生成器可以生成非常逼真的二次元人脸。

通过上述过程我们可以看出，生成器和鉴别器在不断的对抗过程中，两者都在不断的进步，可以说是对抗成就了对方。所以，它们亦敌亦友，相爱相杀，既对立又统一。

对抗的基本思路

2 生成对抗网络的理论基础

我们刚才提到生成器的输入是由一个简单的分布（如正态分布）采样得到的一堆向量，输出是一堆向量构成另一个一个复杂的分布，用 $P_G$ 表示。我们期望 $P_G$ 和某个特定的分布尽可能地相似，而这个分布来自于一堆真实的数据，这个分布表示为 $P_{data}$ 。如果我们用 $Div(P_G,P_{data})$ 来表示这两个分布的Divergence(这个英文不好翻译，暂且理解为“差异程度”吧），那么我们的目标就是寻找一个生成器 $G^*$ 要使 $Div(P_G,P_{data})$ 最小，即， $G^*=arg\min_{G} Div(P_G,P_{data})$ 我们知道在机器学习中，训练的目标是要使损失函数最小，所以在该任务中损失函数就是 $Div(P_G,P_{data})$ 。但是有一个很关键的问题，我们如何计算这两个分布的Divergence呢？好像没法用解析式去描述这两个分布的Divergence，那怎么办呢？我们可以通过采样的方式来计算这两个分布的Divergence。