Semantic Segmentation using Adve

2020-08-10 本文已影响0人一技破万法

在本文中，作者提出了一种对抗训练方法来训练语义分割模型。作者训练卷积语义分割网络以及对抗网络，以区分来自真实图片或分割网络的分割图。作者方法的动机是，它可以检测和校正真实分割图与分割网所产生的高阶不一致。作者的实验表明，作者的对抗训练方法可提高Stanford Background和PASCAL VOC 2012数据集的准确性。

作者工作如下：

1.我们尽我们所能展示了对抗训练在语义分割中的首次应用。
2.对抗训练方法可增强远程空间标签的连续性，而不会增加测试时使用的模型的复杂性。
3.我们在Stanford Background和PASCAL VOC 2012数据集上的实验结果表明，我们的方法可提高标签的准确性。

语义分割框架

下面分两部分对语义分割框架进行解释，第一部分描述语义分割模型的对抗训练框架，第二部分介绍作者实验中使用的框架。

对抗训练框架

作者推荐使用混合损失函数，该函数是两个项的加权和。第一个是多类交叉熵项，它鼓励分割模型在每个像素位置独立预测正确的类标签。作者使用s(x)来表示给定大小为HW3的输入图像x的情况下，分割模型生成C个大小为HW3的类的概率图。第二个损失项是基于辅助对抗卷积网络。如果对抗网络可以从真实标签图上区分出分割网络的输出，则此损失项将很大。作者使用 $a(x,y)\in [0,1]$ 表示对抗模型预测y是x的真实值标签而不是由分割模型s()生成的标签图的概率。
给定N个训练图像 $x_n$ 的数据集和相应的标签图 $y_n$ ，我们将损失定义为:
$l(\theta_s,\theta_a)=\sum_{n=1}^Nl_{mce}(s(x_n),y_n)-\lambda[l_{bce}(a(x_n,y_n),1)+l_{bce}(a(x_n,s(x_n)),0)]$
其中 $\theta_S$ 和 $\theta_a$ 分别表示细分模型和对抗模型的参数，在上面的 $l_{mce}(\hat{y},y)=-\sum_{i=1}^{H*W}\sum_{c=1}^{C}y_{ic}ln\hat{y}_{ic}$ 表示对于预测 $\hat{y}$ 的多类交叉熵损失函数,等于使用1-hot编码表示的目标分割图y的负对数似然性。相似的，我们使用二元熵损失 $l_{bce}(\hat{z},z) = -[zln\hat{z}+(1-z)ln(1-\hat{z})]$ ,我们考虑最小化分割模型的参数 $\theta_s$ ,同时最大化上面对抗模型的参数 $\theta_a$ 。

训练对抗模型

对抗模型仅由第二项决定，所以训练对抗模型等效于最小化以下二进制分类损失：
$\sum_{n=1}^{N}l_{bce}(a(x_n,y_n),1)+l_{bce}(a(x_n,s(x_n)),0) \tag 2$
在实验中，作者使a采用CNN的形式。

训练分割网络

在给定对抗网络的情况下，分割模型的训练可以最大程度地减少多类交叉熵损失，同时降低对抗模型的性能。这使得分割模型将产生难以和对抗模型的真实值分辨的分割图。与细分网络相关的方程式为：
$\sum_{n=1}^Nl_{mce}(s(x_n),y_n)-\lambda l_{bce}(a(x_n,s(x_n)),0) \tag 3$
作者在更新分割模型时，将 $-\lambda l_{bce}(a(x_n,s(x_n)),0)$ 用 $+\lambda l_{bce}(a(x_n,s(x_n)),1)$ 代替。也就是说，除了使对抗预测 $s(x_n)$ 为 $x_n$ 的合成标记图的可能性最小之外，还要使对抗预测它为 $x_n$ 为真实图的可能性最大。上述代替的式子其实很容易证明他们具有共同的临界点。这样修改的原理是：当对抗者在真实图和合成图的种类做出准确的预测时，它将导致更强的梯度信号。作者经过验证，这在实践中对于加速训练很重要！

网络体系结构

作者主要介绍用于Stanford Background数据集的初步实验和基于PASCAL VOC 2012细分基准的大规模实验所用的体系结构。