抠图模型TMFNet
本文介绍近期的一篇抠图工作,来自上海交通大学和字节跳动
Trimap-guided Feature Mining and Fusion Network for Natural Image Matting
日期:December, 2021
作者:Weihao Jiang, Dongdong Yu, Zhaozhi Xie, Yaoyi Li, Zehuan Yuan, Hongtao Lu
单位:Shanghai Jiao Tong University, ByteDance Inc
原文:https://arxiv.org/abs/2112.00510
开源:暂时未找到
摘要:利用Trimap指导和融合多级特征是基于Trimap的具有像素级预测的matting的两个重要问题。为了利用Trimap指导,大多数现有方法简单地将Trimap和图像连接在一起,以提供深度网络或应用额外网络来提取更多Trimap指导,这满足了效率和有效性之间的冲突。对于新兴的基于内容的特征融合,现有的大多数matting方法只关注局部特征,缺乏全局特征的指导,全局特征具有与感兴趣对象相关的强语义信息。在本文中,我们提出了一个Trimap指导的特征挖掘和融合网络,该网络由我们的Trimap指导的非背景多尺度池化(TMP)模块和全局-局部上下文感知融合(GLF)模块组成。考虑到Trimap提供了强大的语义指导,我们的TMP模块在Trimap的指导下专注于对感兴趣的对象进行有效的特征挖掘,而无需额外参数。此外,我们的GLF模块使用TMP模块挖掘的感兴趣对象的全局语义信息来指导有效的全局-局部上下文感知多级特征融合。此外,我们还构建了一个共同感兴趣对象matting(CIOM)数据集,以提高图像matting的质量。特别是,在Composition-1k和我们的CIOM上的结果表明,我们的TMFNet在SAD上分别实现了13%和25%的相对改善,而在强基线下,参数更少,FLOPs更少14%。在Composition-1k测试集、Alphamatting基准和我们的CIOM测试集上的实验结果表明,我们的方法优于最先进的方法。
1.简介
作为一种图像抠图任务,alpha抠图任务通过预测表示每个像素处前景不透明度的alpha抠图来分离图像中的前景对象。在数学形式中,alpha matting将自然图像I定义为每个像素I处前景图像F和背景图像B的凸组合,如下所示:
其中αi是像素i处预测的α蒙版的值。如[1,18]所述,该问题是高度不适定的。为了解决这个问题,许多方法[4,31]利用Trimap或scribble作为约束信息来减少解空间。基于Trimap的方法不仅可以通过使用Trimap来减少解空间,还可以基于输入Trimap中非背景区域的指导来知道在复杂图像中哪个对象应该被视为前景对象。如图1所示,输入Trimap指出哪些对象应被预测为重叠对象和彼此接近的对象的前景。由于图1中Trimap的未知区域中也会出现其他显著但不感兴趣的对象,如绵羊的一部分,因此基于Trimap良好的方法应利用输入Trimap语义指导来预测感兴趣对象的不透明度,而不是简单地预测未知区域中的所有显著对象。
近年来,深度学习方法在基于Trimap的matting任务中取得了显著的改进。其中大多数[9、13、21、22、24、33]通过直接连接输入图像和输入Trimap来利用Trimap信息,为编码器网络提供信息。其中一些[1,23,29]通过额外的网络学习或处理Trimap信息。基于注意力的方法,如GCA[18]和HDMatt[34],根据键块和查询块之间的相似性,在Trimap指示的不同区域之间传播信息流。然而,这些方法忽略了输入Trimap中非背景区域为感兴趣对象提供的强高层语义线索,并且没有有效地利用它们来挖掘感兴趣对象的高层语义信息。
融合或对齐低分辨率高级特征和高分辨率低级特征是图像抠图的另一个重要问题。大多数方法[9、18、29、33]采用静态方法,通过转置卷积或双线性上采样对高级特征进行上采样,然后通过加法或卷积层将其与低级特征融合。近年来出现了先进的基于内容的方法。IndexNet[24]、CARAFE[30]和A 2U[6]采用基于内容的空间动态上采样,方法是预测感知内容的上采样核,而不是基于距离的上采样或静态转置卷积。考虑到给定前景对象的半透明部分在不同背景场景中可能具有不同的外观,空间动态融合核可能比静态卷积核工作得更好。然而,这些基于内容的方法仅依赖于局部特征融合高层和底层特征,而忽略了全局上下文特征,因为高层语义信息与感兴趣的对象密切相关。
在本文中,我们提出了一种Trimap指导的特征挖掘和融合网络(TMFNet),该网络在Trimap指导下有效挖掘感兴趣对象的高级语义信息,并将多级特征与全局-局部上下文感知的空间动态核有效融合。提出的TMFNet主要由我们的Trimap指导的非背景多尺度池化(TMP)模块和全局-局部上下文感知特征融合(GLF)模块组成。
我们提出了一个TMP模块,利用输入Trimap的高级语义指导,在没有额外参数的情况下挖掘感兴趣对象的语义上下文信息。全局池化和大型内核池化(如金字塔池化模块[35])广泛用于图像抠图[9]和语义分割[32],以从全局上下文中捕获语义信息。如图1所示,基于Trimap的matting需要分离Trimap中非背景区域指出的感兴趣对象,而不是每个对象,这启发我们从不同尺度的高级语义特征的非背景区域聚集加权平均值。由于图像抠图需要更精确的空间预测,我们将无背景平均池化和多尺度池化核结合起来,步幅为1,构建了我们的TMP模块,该模块将Trimap的高级语义线索集成到感兴趣对象的语义上下文信息挖掘中,无需额外参数。
与以往基于内容的对齐或融合方法[6,24,30]不同,我们的GLF模块不仅利用局部特征,还引入了从我们的TMP模块中挖掘的全局上下文特征,以高效地预测更好的动态融合核。由于全局上下文和局部特征对于像素级预测都很重要,因此正确选择全局特征可以显著改进特征融合。
此外,我们还构建了一个常见的有趣对象matting数据集,以推进基于Trimap的高质量和高分辨率图像matting。
我们的主要贡献可以总结如下:
•我们提出了一个Trimap指导的非背景多尺度池化(TMP)模块,用于挖掘感兴趣对象的语义信息,该模块利用Trimap中的高级语义指导,无需额外参数。
•我们设计了一个新的轻量级全局-局部上下文感知特征融合(GLF)模块,该模块引入了一个全局特征,其中包含从我们的TMP模块中挖掘的高级语义信息,以高效地促进融合核的生成。
•我们构建了一个共同感兴趣对象matting(CIOM)数据集,以推进高质量、高分辨率的基于Trimap的自然图像matting。
•在Composition-1k[33]测试集、Alphamatting[26]基准和我们的CIOM测试集上的实验结果表明,我们的TMFNet在自然图像matting方面优于最先进的方法。
2.相关工作
基于Trimap的图像抠图。
通常,基于Trimap的图像抠图方法分为三大类:基于采样的方法、基于亲和性的方法和基于学习的方法。基于采样的方法[4、8、11、27]通过对未知区域中每个像素的背景和前景区域的颜色进行采样来求解等式1。传播方法[3,10,16,17]基于[16]提出的色线模型,通过将其值从已知区域传播到未知区域来估计α。得益于强大的深度卷积网络和大规模matting数据集[33]的开发,大多数基于Trimap的方法[9、13、21、22、24、33]通过连接图像和Trimap来为网络提供信息,从而利用输入Trimap中的语义线索。一些方法使用提取网络从输入Trimap中学习或附加语义信息。ADA[1]使用一个额外的解码器来学习一个经过调整的Trimap,并将其与alpha解码器的输出一起传播。SIM[29]使用一个额外的基于patch的分类器来生成语义Trimap,这需要扩展的数据集和前景对象的类标签。TIMINet[23]使用额外的网络组件挖掘Trimap信息。非局部遮片方法[18,34]使用注意机制将信息从图像上下文指导到Trimap中的未知像素。
融合或对齐高级特征和低级特征。基于CNN的模型通常提供低分辨率的高级特征和高分辨率的低级特征。因此,将高级和低级特征融合或对齐以执行深度抠图任务是一个重要问题。现有方法分为两大类:静态方法和基于内容的方法。大多数方法[9、18、21、33]采用静态方法,使用双线性核或转置卷积对高级特征进行上采样,并通过卷积或直接加法将上采样的高级特征与低级特征融合。其他方法[6,24,30]采用基于内容的空间动态上采样而不是静态上采样来推进特征融合。IndexNet[24]和CARAFE[30]根据一阶特征生成上采样核,而2U[6]使用二阶信息生成其上采样核。所有这些方法都只使用局部特征进行动态或静态融合。
3.我们的深阿尔法底纹基线
基线结构。我们的编码器是一个像[29]一样的ResNet-50[12],输出步长为16。图像和onehot Trimap被连接为像[18]一样的6通道输入。输入被馈送到我们的编码器以生成不同级别的特征。我们的基线解码器首先将ResNet-50中C5级的输出传递到金字塔池化层[35],然后是两个3×3卷积层,表示为“ppm”。然后,通过双线性上采样、级联和卷积层,将“ppm”的高level 输出特征与C2、C1和6通道输入级的低level 特征进行融合,并依次使用LeakyReLU[25]。本文将基线中的这种融合过程称为“静态融合”。最后,融合的特征被馈送到两个卷积层以预测阿尔法蒙版。更多细节见补充材料。
功能丧失。
我们采用DIM[33]中的α损失Lα和成分损失Lc作为基本损失,然后将拉普拉斯损失Llap[13]添加到总损失中,如下所示:
4.一种新的图像抠图数据集
针对高质量的感兴趣对象图像抠图,我们收集了733幅具有常见感兴趣前景对象且无运动模糊的高质量图像。我们用Photoshop手动提取他们的alpha蒙版和前景图像。我们选择683个带有相应前景的标记alpha蒙版作为我们的训练集,在训练期间将其合成到COCO[20]的背景图像上。根据[33]中的合成规则,将其他50个标记图像合成到来自ADE20k[36]的背景图像上,以形成1000个测试图像。合成-1k[33]训练图像和测试图像的平均像素数分别为13292和15112。我们的CIOM训练图像和测试图像的平均像素数分别为28562和26742,这使其更适合于更高分辨率和质量的遮片。更多细节见补充材料。
5.提出的方法
5.1.TMP模块
为了构建用于图像分割的复杂场景的强大语义表示,金字塔池化模块[35]使用大内核池化聚合全局上下文信息和子区域上下文,并将其融合。然而,基于Trimap的图像抠图方法需要关注Trimap指出的有趣对象,而不是上下文中的每个对象。由于输入Trimap包含高级语义指导,因此将其与低级图像一起通过相同的网络结构不足以提取其语义指导。由于Trimap的非背景区域与感兴趣的对象密切相关,因此将语义特征挖掘的重点放在非背景区域是合理的。考虑到图像抠图需要更平滑的表示,通过融合具有不同尺度大核的非背景区域上的高级特征的加权平均值(步长为1),可以为感兴趣的对象提取强大而平滑的语义表示。这样,我们能够将Trimap的高级语义指导集成到挖掘感兴趣对象的语义信息中,而无需额外的网络组件。
通过以上分析,我们引入了Trimap指导的无背景多尺度池化模块(TMP),该模块为Trimap有效地指出的感兴趣对象提供了强大的语义表示。我们的TMP采用与F空间大小相同的高级特征图F和非背景加权掩码MNBG作为输入。为了得到MNBG,我们生成了一个非背景二进制掩码1s/∈B、 其中B是Trimap中的背景区域,然后以与F相同的空间大小双线性调整其大小以获得MNBG。如图2所示,我们使用4个并行的1×1卷积层减少输入特征映射F的通道,以获得4个表示为Frs的减少特征。为了将特征挖掘重点放在非背景区域上,我们将非背景池化单元NBPk构建为:
其中P oolk是平均池化层,内核大小为k,步长为1,o是哈达玛积,Fr、MNBG和c是缩减特征图,非背景加权掩码和1e−分别为6。然后,我们使用4个具有不同内核大小的非背景池化单元从这些缩减特征映射Frs中获取感兴趣对象的语义信息。最后,将非背景池化单元的输出与高级输入特征F串联,然后通过两个3×3卷积层进行融合,形成具有感兴趣对象高级语义信息的多尺度上下文表示。我们将非后台池化单元的内核大小设置为31、17、11和5,分别对应于具有32×32输入的“ppm”中的1、2、3和6的二进制大小。当图像的输入分辨率为512×512时,我们的TMP具有相似的内核大小,用于将内核与“ppm”合并。此外,我们的TMP也具有与基线中的“ppm”相同的参数大小。
5.2.根据权利要求1所述的GLF模块
现有方法使用静态方法[9,18]或基于内容的方法[6,30]对高级特征图进行上采样,然后将其与低级特征图连接,并通过卷积层进行融合。然而,这些方法只关注局部特征。
由于局部细节和全局上下文对于勾画感兴趣的对象都很重要,因此我们以适当的方式利用高级和低级特征映射的局部特征以及具有高级语义信息的全局特征来构建我们的全局上下文感知特征融合(GLF)模块。
如图2所示,我们的GLF模块首先使用像素混洗[28]对齐高级特征Xh和低级特征Xl的空间大小,然后将它们连接在一起。然后,我们使用1×1卷积层将它们的信息分布到X中的N组通道中。然后,在每个空间位置K处有N组3×3个核∈ 从X的局部特征和全局特征G生成R H×W×(N×3×3)。然后,同一组中的通道共享一个核映射以融合空间信息。最后,一个1×1卷积融合了来自不同组的信息。通过这种方式,我们的GLF模块在全局特征的指导下有效地融合了高级特征和低级特征。精确的数学描述如下:
给定低级特征Xl∈ rh×W×C1,一个高级特征Xh∈ Rh2×W2×C2和全局特征G∈ R 1×1×C 0作为输入,GLF模块首先沿通道维度将Xl和Xh的信息分配为:
其中X∈ Rh×W×C3、conv1×1、concat和Ps分别是内部特征映射、1×1卷积、级联和像素混洗[28]。然后我们生成N组3×3核K∈ 每个空间位置处的Rh×W×(N×3×3)为:
其中Leaky是具有负斜率0.01的LeakyReLU[25]⊕ 是广播添加。我们将核和特征分成N组,视为K∈ rh×W×N×3×3和X∈ R分别为H×W×C3和N×N。然后对每个组进行空间融合(⊗ 在图2中,对于我们的GLF模块)实现为:
其中g∈ [1,N]和k∈ [1,C3 N]分别是每组中的组索引和通道索引,u和v分别是每个位置K中3×3个核的偏移量。最后,将Y整形为Y∈ R H×W×C3,我们使用1×1卷积来融合组和通道之间的信息,如下所示:
Z在哪里∈ R H×W×C是GLF模块的最终输出,BN是批量归一化[14]。
由于高级特征将依次与3个低级特征融合,因此选择适当的全局上下文特征G对于我们的GLF模块至关重要。通过对Xh应用全局池化来获得高级全局上下文是很简单的,在表3中表示为GLF(B)。然而,Xh与Xl融合后,高级语义信息减少,局部细节信息增加,这使得为下一个GLF模块提供全局上下文信息是不合适的。由于我们的TMP模块为Trimap指出的对象挖掘强语义信息,我们对其输出应用全局平均池化,以生成表2和表3中表示为GLF的GLF模块的全局特征G。我们还将其与TMP模块输入的全局特征进行比较,即ResNet-50中C5阶段的输出,在表3中称为GLF(C)。
5.3.TMFNet的框架
我们将基线网络中的“ppm”和“静态融合”模块分别替换为我们的TMP模块和GLF模块,以形成我们提出的网络。如图2所示,从左到右的融合阶段分别称为F1、F2和F3。从左、上和下指向GLF的箭头分别表示Xh、G和Xl的输入。对于GLF模块,我们分别为F1、F2和F3级将其内部通道号C3s设置为256、256和32,并为所有融合级中的每组设置16个通道。GLF的输出通道号与基线相同。由于高级特征输入的空间大小应为GLF模块中低级特征的1到2,因此我们在F1阶段之前放置了一个比率为2的双线性上采样层。通过这种方式,由于我们的轻量级GLF模块,我们提出的网络成本比我们的基准低0.9M个参数和14%的FLOPs(见表6)。
6.实验
6.1.实验设置
我们提出的方法在Composition-1k[33]、Alphamatting[26]和我们的CIOM数据集上进行了评估,并得到了定量结果。
Alphamatting[26]是一个在线真实世界的matting基准,它提供27幅图像和alpha matting用于训练,8幅测试图像,每幅图像有3个Trimap用于评估。
Composition-1k[33]分别为训练和测试提供431和50对前景图像和alpha蒙版。通过将50个测试对中的每一个合成到来自VOC[7]的20个背景图像上,生成1000个测试图像,并为每个测试图像提供相应的Trimap。培训背景来自COCO数据集[20]
我们的CIOM提供683和50对前景图像和alpha蒙版,用于训练和测试。测试图像的分辨率高达4000×3867,可以为高分辨率和高质量的抠图提供定量结果。
评估指标。我们使用绝对差之和(SAD)、均方误差(MSE)、梯度误差(Grad)和连通性误差(Conn)来评估定量结果。
实现细节。基线和提议的方法经过了200000次迭代的训练,批次大小总共为32次,用于表2、3和5中使用2个特斯拉V100 GPU的详细消融研究。特别是,为了与表1和表4中的SOTA方法进行比较,使用4个特斯拉V100 GPU,以总共64个批量对基线和拟议框架进行了培训。我们使用初始化学习率为0.01的Adam优化器[15]。学习率衰减策略遵循GCA[18]。对于数据增强,我们遵循[18,19]中提出的训练协议,包括两幅前景图像的随机合成、使用随机插值的随机调整图像大小、随机仿射变换和颜色抖动。Trimap是通过在训练期间对具有1到30个随机核大小的alpha图像进行膨胀和侵蚀而生成的。对以未知区域为中心的512×512个patch进行裁剪,并与来自COCO[20]的随机背景图像合成。在Composition-1k[33]训练集或CIOM训练集上训练的模型遵循上述相同设置。至于测试,我们提出的方法在单个32GB特斯拉V100 GPU上,在我们的CIOM测试集或Composition-1k[33]测试集整体上推断每个图像,而不进行缩放。
6.2.与先前工作的比较
我们将我们的方法与其他基于SOTA深度Trimap的图像抠图方法进行比较,包括LFPNet[21]、FBA[9]、SIM[29]、TIMINet[23]、GCA[18]、A2U[6]、ADA[1]、IndexNet[24]和DIM[33]。
组合-1k测试集。
定量和可视化结果如表1和图3所示。在不使用额外数据或注释的情况下,提出的模型在Composition-1k测试集上达到22.1 SAD,优于Composition-1k测试集中的其他SOTA方法。该模型在使用较少参数的强基线模型上也取得了显著的改进。如图3所示,与基线方法和其他SOTA方法[18,24]相比,我们的TMFNet更好地聚焦于感兴趣的对象,并受到显著背景对象的干扰。更多细节见补充材料。
Alphamatting是一个基准。
与其他最先进的方法(如LFPNet[21]、SIM[29]、ADA[1]、GCA[18]和A2U[6]相比,我们的方法在SAD和MSE指标上的性能更好,如表4所示。图6显示了一些视觉结果,我们的方法在alphamatting[26]基准中的这些真实情况下也具有更好的视觉性能。
高分辨率真实世界图像。
除了Alphamatting[26]基准中的真实案例外,我们还收集了一些高分辨率的真实图像,并为它们绘制Trimap。如图4所示,对于高分辨率的真实测试案例,我们的模型比SOTA方法[18,24,33]对细节的预测更好。
我们的CIOM测试集为分辨率高达4000×3867的高分辨率和高质量图像提供了定量结果。如表2所示,我们提出的TMP模块和GLF模块分别带来了4.6和2.2个SAD改进。我们还将我们的方法与在CIOM训练集上训练的DIM[33]、IndexNet[24]和GCA[18]进行了比较。所有测试均在32GB特斯拉V100 GPU上实现。由于GCA[18]只能使用32GB内存评估分辨率高达30002的图像,因此我们对大于30002的图片进行降采样,以测试GCA。我们的方法达到20.2 SAD,显著优于其他方法。图7中显示了拟议方法、基线和其中一些方法的视觉比较。我们的方法在这个高分辨率matting基准上的定量和视觉结果都优于上述方法。
6.3.消融和比较
我们的TMP模块由Trimap指导的非背景平均池化和多尺度池化内核组成,它挖掘Trimap指出的感兴趣对象的高级语义上下文。我们在表3中报告了消融研究。“基本+TP”指的是用“ppm”中的非背景自适应平均池化代替自适应平均池化,通过将特征挖掘集中在无额外参数的非背景区域,带来1.0 SAD改进。“基本+MP”是指用步幅为1的多尺度池化代替自适应平均池化,其平滑表示提高了0.2 SAD。最后,“基本+TMP”指的是用我们的TMP模块替换基线中的“ppm”,这在基本损耗和拉普拉斯损耗下分别提高了1.2和1.4 SAD。除了基线中的“ppm”,我们还将我们的TMP与ASPP[2]模块进行比较,即表3中的“Basic+ASPP”,我们的TMP在参数较少的情况下优于ASPP。
我们的GLF模块的消融研究如表3所示。“LF”指的是局部感知融合模块,即不使用全局上下文特征G的GLF模型。“Basic+TMP+LF”将“Basic+TMP”的SAD提高了0.6,并通过用我们的局部感知融合模件替换所有“静态融合”节省了100万个参数。为了为我们的GLF模块选择全局上下文功能,我们比较了表3中的GLF、GLF(B)和GLF(C)。结果表明,使用来自我们的TMP模块输出的全局上下文的GLF显著优于其他选择,仅增加了0.1M个参数,就带来了1.4个SAD改进。总之,“基本+TMP”+GLF提高了2.0 SAD,减少了0.90万个参数。此外,我们还与现有的局部感知动态上采样方法(如CARAFE[30])进行了比较,该方法仅使用高级特征预测上采样核,并对表3所示的matting任务产生了负面影响。上述分析表明,全局和局部特征对于matting中的特征融合都很重要,我们的GLF模块执行全局-局部上下文感知空间融合,以高效地改进自然图像Matt。融合阶段的消融研究见附录A\
6.4.融合核的可视化
我们在图5中可视化了初始网络的预测融合核映射、训练的局部感知融合模块“LF”和训练的GLF模块。图5第一行和第二行中的这些核映射分别由图3中所示的crystal和dandelion的输入情况生成。与初始模型相比,经过训练的局部感知融合模块“LF”学习了感兴趣对象的结构,并在一定程度上抑制了显著背景对象的干扰。通过正确选择从我们的TMP模块中挖掘的全局上下文特征,我们的全局-局部上下文感知融合模块(GLF)可以更好地学习感兴趣对象的结构,其预测的融合核映射具有更清晰的边界。预测核映射的这些可视化结果表明,特征挖掘和TMFNet中融合模块的正确设计有助于学习复杂场景中感兴趣对象的结构。
7.结论
在本文中,我们观察到,以前基于Trimap的matting方法缺乏将Trimap指导集成到感兴趣对象的语义上下文特征挖掘中的有效方法,并且它们也忽略了具有高级语义信息的全局上下文特征对于matting中的特征融合的重要性。基于这一观察,我们提出了一种用于自然图像抠图的Trimap指导特征挖掘和融合网络。我们的TMP模块在没有额外参数的情况下为Trimap指出的有趣对象挖掘强大的语义上下文表示,我们的GLF使用来自TMP的高级语义全局上下文来高效地促进我们的全局-局部上下文感知特征融合。为了提高高分辨率和高质量的抠图,我们构建了一个用于常见感兴趣对象抠图的大规模高分辨率数据集。最后,大量实验表明,我们的方法优于最先进的方法。
A、 GLF模块在融合阶段的消融
如表5所示,对于Composition-1k[33]测试集,基于“基本+TMP”,我们在图2中的F1、F2和F3阶段用解码器中的局部感知融合模块逐步替换“静态融合”,然后全局上下文逐渐应用于这些阶段。当localaware融合模块应用于所有3个融合阶段时,它将SAD从26.9提高到26.3,并节省了约100万个参数。当全局上下文应用于所有3个融合阶段时,只需增加约0.1M的参数,即可将SAD从26.3提高到24.9。总之,我们的GLF模块将SAD从26.9提高到24.9,并节省了约0.9M的参数。
B、 计算成本
我们比较了我们的TMFNet、基线模型、GCA[18]和FBA[9]在表6中分辨率为2048×2048的输入下的计算成本。拟议的TMFNet的计算成本低于基线模型和几种SOTA方法[9,18]。GFLOP的结果基于MMCV[5]中的计算方法,包括每个模型中的每个主要操作。