2017.7.28

2017-07-28 本文已影响0人熊大状

学习情况总述：

1、理论性论文：

· Improved wgan ：Gulrajani I, Ahmed F, Arjovsky M, et al. Improved training of wasserstein gans[J]. arXiv preprint arXiv:1704.00028, 2017

· ACGAN：Odena A, Olah C, Shlens J. Conditional image synthesis with auxiliary classifier gans[J]. arXiv preprint arXiv:1610.09585, 2016.

· DenseNet：Huang G, Liu Z, Weinberger K Q, et al. Densely connected convolutional networks[J]. arXiv preprint arXiv:1608.06993, 2016.

2、医疗应用型论文：

·Nie D, Cao X, Gao Y, et al. Estimating CT image from MRI data using 3D fully convolutional networks[C]//International Workshop on Large-Scale Annotation of Biomedical Data and Expert Label Synthesis. Springer International Publishing, 2016: 170-178.

·Oktay O, Bai W, Lee M, et al. Multi-input cardiac image super-resolution using convolutional neural networks[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer International Publishing, 2016: 246-254.

3、模型实现：根据所提供的improved wgan开源代码，实现了cifar数据生成模型。

4、后续：前两天的CVPR2017所筛选出的论文：

· MDNet：A Semantically and Visually Interpretable Medical Image Diagnosis Network

· Fast PET reconstruction using Multi-scale FCN

· High-Resolution Image Inpainting using Multi-Scale Neural Patch Synthesis

· Enhanced Deep Residual Networks for Single Image Super-Resolution

论文解读：

· Improved wgan：现阶段最先进的生成对抗网络。

在WGAN中，研究者们发现失败的案例通常是由使用权重剪枝来对critic实施Lipschitz约束导致的。蒙特利尔大学的研究者对WGAN进行改进，提出了一种替代WGAN判别器中权重剪枝的方法，下面是他们所做的工作：，

1、通过小数据集上的实验，概述了判别器中的权重剪枝是如何导致影响稳定性和性能的病态行为的。

2、提出具有梯度惩罚的WGAN（WGAN with gradient penalty），从而避免同样的问题。

3、展示该方法相比标准WGAN拥有更快的收敛速度，并能生成更高质量的样本。

4、展示该方法如何提供稳定的GAN训练：几乎不需要超参数调参，成功训练多种针对图片生成和语言模型的GAN架构

由于在WGAN中使用权重剪枝可能会导致不良结果，研究者考虑在训练目标上使用Lipschitz约束的一种替代方法：一个可微的函数是1-Lipschitz，当且仅当它的梯度具有小于或等于1的范数时。因此，可以直接约束critic函数对其输入的梯度范数。新的critic函数为：

为了展示该方法训练过程中的稳定性，研究者在LSUN卧室训练集上训练了多种不同的GAN架构，除了DCGAN外，研究者还选择了另外六种较难训练的架构，如下图所示：

上图显示的样本都是经过200k次迭代的结果。目前为止，梯度惩罚的WGAN是唯一一种使用同一种默认超参数，并在每个架构下都成功训练的方法。而所有其他方法，都在一些架构下不稳定。论文还有更多实验了论证wgan-gp的性能。

· DenseNet：CVPR2017 best paper，主要对比了残差网络，性能最好的CNN模型。

近几年来，随着卷积神经网络（CNNs）的迅速发展，学术界涌现出一大批非常高效的模型，如 GoogleNet、VGGNet、ResNet 等，在各种计算机视觉任务上均崭露头角。但随着网络层数的加深，网络在训练过程中的前传信号和梯度信号在经过很多层之后可能会逐渐消失。先前有一些非常好的工作来解决这一问题。如在 Highway 和 ResNet 结构中均提出了一种数据旁路（skip-layer）的技术来使得信号可以在输入层和输出层之间高速流通，核心思想都是创建了一个跨层连接来连通网路中前后层。在本文中，作者基于这个核心理念设计了一种全新的连接模式。为了最大化网络中所有层之间的信息流，作者将网络中的所有层两两都进行了连接，使得网络中每一层都接受它前面所有层的特征作为输入。由于网络中存在着大量密集的连接，作者将这种网络结构称为 DenseNet。其结构示意图如下左图所示：

它主要拥有以下两个特性：1）一定程度上减轻在训练过程中梯度消散的问题。因为从上左图我们可以看出，在反传时每一层都会接受其后所有层的梯度信号，所以不会随着网络深度的增加，靠近输入层的梯度会变得越来越小。2）由于大量的特征被复用，使得使用少量的卷积核就可以生成大量的特征，最终模型的尺寸也比较小。

上右图所示的是构成 DenseNet 的单元模块，看上去和 ResNet 的单元模块非常相似，但实际上差异较大。

1）为了进行特征复用，在跨层连接时使用的是在特征维度上的 Concatenate 操作，而不是 Element-wise Addition 操作。

2）由于不需要进行 Elewise-wise 操作，所以在每个单元模块的最后不需要一个 1X1 的卷积来将特征层数升维到和输入的特征维度一致。

3）采用 Pre-activation 的策略来设计单元，将 BN 操作从主支上移到分支之前。（BN->ReLU->1x1Conv->BN->ReLU->3x3Conv）

4）由于网络中每层都接受前面所有层的特征作为输入，为了避免随着网络层数的增加，后面层的特征维度增长过快，在每个阶段之后进行下采样的时候，首先通过一个卷积层将特征维度压缩至当前输入的一半，然后再进行 Pooling 的操作。

5）增长率的设置。增长率指的是每个单元模块最后那个 3x3 的卷积核的数量，记为 k。由于每个单元模块最后是以 Concatenate 的方式来进行连接的，所以每经过一个单元模块，下一层的特征维度就会增长 k。它的值越大意味着在网络中流通的信息也越大，相应地网络的能力也越强，但是整个模型的尺寸和计算量也会变大。作者在本文中使用了 k=32 和 k=48 两种设置。

在 ImageNet 上的实验结果如下：

Comparison of the DenseNet and ResNet Top-1 (single model and single-crop)error rates on the ImageNet classification dataset as a function of learned parameters (left) and flops during test-time (right).

上左图表示的是参数量和错误率的关系，上右图表示的是模型测试的计算量和错误率的关系。我们不难看出，在达到相同精度时，DenseNet 的参数量和计算量均为 ResNet 的一半左右。

总的来说，这是一篇非常有创新性的工作，提出了共享特征、任意层间互连的概念很大程度上减轻了深层网络在训练过程中梯度消散而难以优化的问题，同时也减小了模型的尺寸和计算量，在标准数据集上获得了非常好的性能。唯一可能的不足是网络不能设计地特别「深」，因为随着 DenseNet 网络层数的增加，模型的特征维度会线性增长，使得在训练过程中的计算量和显存开销也会爆发地增长。

· ACGAN：我之前的想法与部分内容有些雷同了

摘要

合成高分辨率图像是机器学习中一个长期存在的挑战，文中介绍了图像合成的一个改进训练GANs的新方法。我们运用标签条件构建了一个变种GANs，产生显示出全局一致性的128×128分辨率的图像样本。我们扩展了以前的图像质量评价工作，提出了两种新的分析方法，以评价类别条件图像合成模型的样本的可区分性和多样性。这些分析表明，高分辨率样本提供了在低分辨率样本中不存在的类别信息。在1000个ImageNet类中，128×128的样本比人工调整的32×32 大小的样本高出两倍的可分性。并且，84.7%的类别具有与真实ImageNet 数据可比拟的样本表达多样性。

其目的：

1、生成高分辨率图像改善可分性

构建类条件图像合成模型需要测量合成图像看起来属于预期类的程度。特别酸，我们想知道一个高分辨率样本不仅仅是单纯的调整一个低分辨率样本的大小。考虑一个简单的实验，假设存在一个合成32×32大小图像的模型。可以通过执行双线性插值来简单地提升合成图像的分辨率，但是这些图像只是低分辨率图像的模糊版本，是不可分辨的。因此，图像合成模型的目标不是简单地生成高分辨率图像，而是生成比地分辨率图像更可分的高分辨率图像。

为了测量可分辩性，我们将合成图像提供给一个预训练的初始网络，并报告了初始网络分配出正确标签的样本分数。我们在一系列真实和合成图像上计算这一精度测量，这些图像通过双线性插值人为地降低了空间分辨率。注意，随着空间分辨率的降低，精度也随之降低，表明产生的图像包含较少的类信息。我们通过ImagNet训练数据的所有1000个ImageNet 类别，图3中的128×128分辨率和64×64 分辨率中总结出这一发现。该分析的目的是现实合成更高分辨率的图像导致可辨别性增加。

2、测量生成图像的多样性

医学应用性论文：见上次未讲的ppt。

模型实现:

根据论文所提供的代码，实现了论文中的cifar数据集实验。

WGAN-GP经过200000轮生成的图片

每轮所需时间

训练集损失函数的收敛曲线

大致复原了实验，验证了WGAN-GP的性能。

原论文实验中关于生成模型的inception_sorce曲线在我的实验中未跑通实现，inception_sorce主要用于定量评价生成图像的指标。

2017.7.28

学习情况总述：

论文解读：

医学应用性论文：见上次未讲的ppt。

模型实现:

猜你喜欢

热点阅读