InverseForm：结构边缘感知的损失函数

2023-03-08 本文已影响0人 Valar_Morghulis

InverseForm: A Loss Function for Structured Boundary-Aware Segmentation

Apr 2021

CVPR 2021 Oral

Shubhankar Borse, Ying Wang, Yizhe Zhang, Fatih Porikli

[Qualcomm AI Research]

https://arxiv.org/abs/2104.02745

在Cityscapes排行榜上靠前

摘要：我们提出了一种新的边界感知损失项，用于使用逆变换网络进行语义分割，该项可以有效地学习估计边界和目标边界之间的参数变换程度。该插件损失项补充了捕获边界变换中的交叉熵损失，并允许在不增加其大小和计算复杂性的情况下对分割主干模型进行一致和显著的性能改进。我们分析了我们的损失函数对三个室内和室外分割基准（包括Cityscapes、NYU-Depth-v2和PASCAL）的定量和定性影响，并将其集成到单个任务和多任务设置中的几个主干网络的训练阶段。我们的大量实验表明，所提出的方法始终优于基线，甚至在两个数据集上设置了新的最先进水平。

1.引言

语义分割是一项基本的计算机视觉任务，具有许多实际应用，如自动驾驶、医学图像分析、3D重建、AR/VR和视觉监控。它旨在对给定的一组目标类别执行像素级标记。

由于最近基于深度学习模型的解决方案，如端到端全卷积网络（FCN）[30]，语义分割取得了显著进展，这在流行的基准测试中带来了显著的性能提升。已经进行了大量的研究来改进语义分割。一个主要方向是集成多分辨率和分层特征图[40][38]。另一个雄心勃勃的目标是利用边界信息进一步增强分割[50][39]，这是由于观察到分割预测误差更可能发生在边界附近[39][22]。并行地，多任务学习（MTL）框架[14][31]探索了语义分割和补充任务（如边界检测[14][44][31]或深度估计[48]）的联合优化。

我们的方法与充分利用边界勘探相一致。其中一个主要区别是，之前的大多数工作都使用加权交叉熵损失作为边界检测的损失函数，我们在图2中显示，这对于测量边界偏移来说是次优的。[23]中也部分观察到了这一点。交叉熵损失主要基于估计的和真值的像素标签变化，但忽略了像素与目标边界的空间距离。它不能有效地测量局部空间变化，例如预测边界和目标边界之间的平移、旋转或缩放。

为了解决这一局限性，我们将一种基于边界距离的度量称为InverseForm，引入到流行的分割损失函数中。我们设计了一个逆变换网络来模拟边界图之间的距离，它可以有效地学习局部空间区域之间的参数变换程度。该度量允许我们使用任何主干模型在语义分割方面实现显著且一致的改进，而不增加网络的推理大小和计算复杂性。

具体来说，我们在训练阶段提出了一种边界感知分割方案，通过将我们的空间距离损失InverseForm集成到现有的基于像素的损失中。我们基于距离的损失补充了捕获边界变换时基于像素的损失。我们利用我们的逆变换网络从边界进行距离测量，并联合优化像素标签精度和边界距离。我们可以将我们提出的方案集成到任何分割模型中；例如，我们采用最新的HRNet[45]架构作为主干之一，因为它维护高分辨率的特征图。

我们还采用了各种MTL框架[31][44]，以利用其边界检测任务进一步提高分割性能，而不增加计算和内存成本。在这个变体中，我们显示了所有任务的一致性能改进。

我们在大型基准数据集上进行了综合实验，包括NYU-Depth-v2[37]、Cityscapes[9]和PASCAL上下文[15]。对于NYUDepth-v2，我们表明，基于InverseForm的分割在平均交叉超过并集（mIoU）方面优于现有技术。我们还表明，就多任务性能而言，我们优于PASCAL上最先进的多任务学习方法。这包括odsF得分[32]预测边缘质量方面的优异性能，以及mIoU上其他任务的改进，如人体部位估计和显著性估计。然后，我们在Cityscapes上进行了严格的实验，以将我们的方法与SegFix[50]和Gated SCNN[39]等当代作品进行比较。

我们工作的贡献包括：

•我们提出了一种基于边界距离的度量方法InverseForm，以改进语义分割。我们表明，与基于交叉熵的度量相比，我们专门定制的度量更能捕获空间边界变换，从而产生更准确的分割结果。

•我们的方案对主干架构的选择是不可知的，并且非常灵活，可以插入任何现有的分割模型，无需额外的推理成本。由于其即插即用特性，它不会影响网络的主要结构。它是灵活的，可以适应多任务学习框架。

•我们通过大量实验表明，我们的边界感知分割方法始终优于其基线，并且在单任务（在NYUDepth-v2上）和多任务设置（在PASCAL上）方面也优于最先进的方法。

2.相关工作

语义分割：

全卷积网络（FCN）[30]的引入导致了语义分割的重大进展。许多工作都基于FCN来提高分割性能。[26]中的工作为条件随机场（CRF）模型提出了一种近似推理算法，以提高分割效率。已经提出了各种架构来提高推理速度，例如DeepLab[5]、PSPNet[54]和HRNet[45]。许多最近的工作通过整合不同的上下文模型[49][50][39]来利用HRNet。

边界感知分割：

边界感知分割在最近的一些研究中得到了研究。有几种方法可以模拟这个问题。在[1]中，引入了称为边界神经场（BNF）的全局能量模型来预测边界线索，以增强语义分割。作者表明，能量将语义分割分解为一组二元问题，这些问题可以通过全局优化来放松和解决。在[10]中，提出了边界感知特征传播模块（BFP）来传播由UAG结构化图像中学习的边界隔离的局部特征。[29]中的工作通过空间传播网络学习语义感知的亲和性，以细化图像分割边界。类似地，[3]对输出采用快速域变换滤波，并生成边缘图以细化分割输出。门控SCNN[39]将学习的边界注入中间层以改进分割。这是使用门控来实现的，以允许主分割流和形状流之间的交互。然而，这些边界是使用基于像素的损失来学习的。我们在第4节中展示了使用我们提出的空间损失如何使这种损失受益。其他相关工作包括[22][11][12][28][7][34]和[23]。

我们的工作与所有之前的工作之间的主要区别之一是，大多数之前的工作使用加权交叉熵作为边界检测的损失函数，这对于测量边界变化来说是次优的。交叉熵损失主要考虑像素标签，但忽略边界之间的距离。它不能有效地测量两个图像区域之间的移动、缩放、旋转和其他空间变化。在我们的工作中，我们将基于距离的度量引入到这个损失函数中。具体而言，我们使用逆变换网络来建模边界图之间的空间距离，这被证明显著提高了捕获此类边界变换的能力。SegFix[50]是最近一项利用空间关系的有趣工作。它学习离散距离变换图以合并空间关系。我们的工作不是学习这些偏移图，而是回归单应性参数，并使用导出的距离计算。我们在第4节中定性和定量地表明，这更有效。我们的工作与前面提到的所有工作之间的另一个主要区别是，我们提出的方法在推断过程中不需要额外的成本。

多任务学习：

多任务学习（MTL）[24]在统一框架下从多任务监控信号中学习共享表示。它可以有效地探索多个任务之间的交互，同时节省内存和计算。[44]显示了NYU-depth-v2的语义分割和深度估计的多任务学习的优异性能。[43]提供了多任务学习技术的全面概述。在[31]中，作者通过使用多任务框架一次执行一个任务来解决任务干扰问题。它们允许网络通过任务注意力来调整其行为

6.结论

我们提出了一种基于距离的边界感知分割方法，该方法可以持续改进插入的任何语义分割主干。在训练期间，边界检测和分割在多任务学习框架中联合优化。在推断时，它不需要任何额外的计算负载。基于距离的度量优于基于交叉熵的度量，同时有效地捕获边界变换。我们通过经验证明，我们的方案实现了优异的分割精度和更好的结构化分割输出。我们继续寻找该方法的最佳架构和距离测量，因为我们在消融实验中显示了一些改进的空间。

InverseForm：结构边缘感知的损失函数

猜你喜欢

热点阅读