我是Alpha
IamAlpha: Instant and Adaptive Mobile Network for Alpha Matting, BMVC 2021
Avinav Goel, Manoj Kumar, Pavan Sudheendra,
原文地址:https://www.bmvc2021-virtualconference.com/assets/papers/1349.pdf
原文网页:https://www.bmvc2021-virtualconference.com/conference/papers/paper_1349.html
作者之一的github(内容是空的):https://github.com/PavanSudheendra/IamAlpha
http://www.alphamatting.com/eval_25.php
摘要:从自然图像中提取高质量的alpha蒙版一直是现实世界中具有广泛应用的关键问题。目前,大多数图像matting技术都需要一个被称为“Trimap”的标记未知区域,作为估计alpha的输入。但由于缺少trimap,大多数技术倾向于通过腐蚀和扩展真值alpha图来生成trimap。这反过来又使得prior art在使用基于分割的trimaps时,对引入的微小误差不灵活。在本文中,我们介绍了一种新的、最先进的alpha matting模型IamAlpha,该模型使用trimap自适应作为辅助任务来适应和修复输入trimap错误,因此我们的alpha网络主要侧重于估计对图像matting至关重要的高级特征(头发、毛皮等精细结构)的透明度。这反过来有助于我们在GPU上以60fps的速度实时启用高质量的matting应用程序,在移动硬件上以30fps的速度实时启用。
1. 简介
图像抠图是一个众所周知的问题,它涉及通过估计图像中对象的像素级透明度来分离前景和背景。最常见的应用也可以在电影中看到,在电影中,拍摄是用蓝色/绿色屏幕完成的,然后用合适的VFX背景代替。但是,当在自然捕获的场景中提取前景(前景颜色与背景匹配)时,这项任务变得很困难。任何自然图像合成都可以用数学方法写成如下:
, (1)
其中,是指在像素位置处的最终合成图像中观察到的颜色值,该颜色值是根据像素处的α强度将前景和背景的颜色混合而成。的值在0到1的范围内变化,表示值0为明确的背景像素,1为明确的前景像素,中间值表示二者的混合。典型的trimap也以相同的方式形成,0值表示明确的背景,1值表示明确的前景,灰色区别表示透明度未知的区域。目前已知的创建trimap的技术要么是手工涂鸦,要么是使用二值分割网络自动创建。它们似乎都很有可能在输入trimap中产生错误,从而导致最终蒙版输出中出现误报(false-positives)或漏报(false-negatives)。例如,一些常见错误包括在trimap中将未知区域的一部分标记为前景(1),或在输入trimap中将其标记为明确背景(0),从而可能完全遗漏遥远的未知头发区域。即使是目前最先进的网络,如FBA[5]、GCA[9]等,也高度依赖于输入trimap的正确性。这种网络的核心焦点是仅基于trimap中确定的前景来估计未知像素的alpha亲和力。但如果使用基于分割的trimap,分割图中的不准确可能会传播到最终的matting图(图2:第二行)。为了减少此类错误,需要使用matting网络来调整输入trimap以及估计前景透明度。因此,为了使我们的网络能够感知到输入trimap中的不准确之处,我们引入了一种辅助trimap解码器,它完全专注于纠正trimap中的上述问题,同时减少trimap的未知区域。在训练时使用这样一个辅助解码器,不仅使我们能够拥有一个轻量的matting网络(图1),而且还减少了alpha解码器的负载,提高了其质量,从而使其成为alphamatting方面已发表作品中的佼佼者。com[12]。总之,我们工作的主要贡献是:
• 引入trimap自适应作为matting的辅助任务,有助于降低网络的计算复杂性。
• Trimap自适应作为一项辅助任务,有助于使matting任务不受基于分割的Trimap中的错误伪影的影响。这使得自动端到端实时图像抠图应用程序成为可能。本文通过烧蚀研究证实了trimap自适应对提高精度的有效性。通过这种解耦,我们能够在PC和移动设备上分别实现60fps和30fps的性能。
Trimap adaptation as an auxiliary task has helped in making matting task invariant to unwanted artifacts in segmentation based trimaps
• 通过论文中的消融研究,用可训练的权重将解耦的trimap自适应和α估计的任务重新结合,在准确性方面取得了良好的提高。
Re-binding decoupled tasks of trimap adaptation and alpha estimation with trainable weights has yielded good improvements in accuracy as established through an ablation study in the paper
本文的组织结构如下:在第2节中,我们讨论了已发表的有关matting系统的工作。在第3节中,我们提出了多种网络优化和损失,并在第4节中进行了实验以支持这些优化和损失。最后,在第5节中,我们将我们的方法与其他最先进的网络在质量和计算方面进行了比较,以在第6节中得出正确的结论
2 相关工作
Matting通常有两种处理方法,第一种是颜色采样方法[4],它收集一组背景和前景颜色,以根据每个像素的亲和力确定未知区域中的alphas。另一种是基于传播的方法[2],该方法开始从前景向外传播alpha梯度,同时考虑相邻像素的颜色亲和力。
2.1 基于DNN的方法
Shen等人[15]是最早引入全自动网络来生成alpha蒙版的人之一,但他们的工作仅限于肖像图像。在同时预测alpha和前景的领域已经探索了各种技术[5],[7],但所有这些方法都导致高度依赖Trimap,并且具有很高的计算复杂性(表1)。
2.2 Trimap生成和适配
大多数图像抠图技术都使用了一个指导,也称为trimap,它是前景、背景和未知区域的粗略指示器。Wang等人[16]提出了一种利用涂鸦通过人机交互来标记trimap未知区域的技术,而其他自动技术[5]、[9]则对真值alpha图做腐蚀和膨胀来生成输入trimap。文献[1]、[11]中的研究人员已经在他们的网络中推导了针对特定trimap区域的单独分支,但其效果是使网络更加复杂。因此,我们将trimap自适应任务作为辅助任务,它只是训练过程的一部分,在推理时不使用,这有助于我们实现实时matting网络。上述技术都无法实现自动化,因为它们在处理自动技术创建的trimap时往往会导致错误,例如对同一图像进行分割(图2:第二行)。
2.3 实时移动网络
根据我们目前的知识,在移动设备上即时运行的“通用对象”alpha matting领域不存在现有技术。尽管如此,林等人[10](BackgroundMatting)最近提出了一种实时GPU网络,其运行性能类似,但仅限于“人像”,还需要更多数据,如3通道背景RGB图像输入,而不是我们的1通道trimap输入。Levinshtein等人[8]也尝试使用基于移动网络体系结构的模型来进行人类头发梳理,但由于估计粗糙,因此仅将其与现有的人类分割网络进行比较,而没有进行梳理。
3 方法
我们将基于Trimap的Alpha matting任务视为同时依赖于Alpha估计和Trimap自适应。但是,为了实现实时网络,这两个任务可以很容易地解耦,并且仍然可以使用单个权重自适应可训练损失函数连接在一起,同时保持优异的质量。
both the tasks can be easily decoupled and still be linked together using a single weight adaptive trainable loss function while retaining superior quality
3.1 架构
在本文中,我们提出了一种具有一个公共编码器和两个解码器的轻量级多任务损失网络。我们使用改进的ResNet50作为编码器,具有5x的下采样层。alpha学习任务基本上可以分为两个子任务,即回归(alpha估计)和分类(Trimap适应)。
3.1.1 α估计
alpha估计的主要任务是正确估计前景和背景的边界的透明度。我们使用了具有半宽度残差块的U-Net(13)式体系结构(6),编码器具有5倍的下采样层,每个块后都有跳连。我们还使用了直接来自输入的跳连,因为边界锐度在输入RGB图中得到了完美的保留。虽然我们的编码器包含一个5x向下采样器,但我们的alpha解码器只使用低级特征映射。这是因为后续的下采样会损失更精细的图像特征,而高质量的特征提取对于alpha估计的基本任务至关重要(图1)。此外,我们使用快速双线性向上采样器替换所有de-convolutions,因为它们在保持像素梯度方面最有效。另一方面,残差块[6]专门设计为仅使用较小的1x1或3x3内核来实现轻量级高性能网络。
The primary task of alpha estimation is to correctly estimate transparency in the foreground-background boundary. We make use of U-Net[13] like architecture with half-width residual blocks [6] and the encoder having 5x-down-sampling layers with skip connections after each block. We also make use of a direct input skip connection as the boundary sharpness is perfectly preserved in the input RGB map. Though our encoder contains a 5x down-sampler our alpha decoder only makes use of low level feature maps. This is because finer image features are lost on subsequent down sampling and high quality feature extraction is crucial to the underlying task of alpha estimation (Fig.1). Moreover we replaced all de-convolutions with fast Bilinear up-samplers as they are most efficient in preserving pixel gradients. The Residual Blocks[6], on the other hand have been designed specifically to use only small 1x1 or 3x3 kernels to achieve a lightweight high performance network.
3.1.2 Trimap自适应
该辅助网络是为trimap校正和自适应而添加的,它具有计算开销为零的最大优势,因为在推理过程中不使用该解码器。由于该任务主要与学习trimap校正的上下文信息有关,因此仅提供更高级别的特征图(图1)。为了训练此特定任务,使用以下等式从真值alpha图构建真值trimaps:
其中,alpha()是真值alpha,其值在0到1之间,0为完全是背景,1为完全是前景。
3.2 多任务损失函数
这里的损失函数旨在通过在整个训练过程中动态调整单个任务权重,同时训练Alpha估计任务和Trimap自适应任务。多任务损失函数如下:
其中,和表示输出的trimap自适应和α估计,和表示动态调整的任务权重[3](在使用反向传播算法的训练期间),和分别表示trimap交叉熵损失和α估计损失。α估计损失是、、Composition损失和SSIM损失的组合。alpha估计损失仅用于估计trimap()的未知区域。
3.3 实时抠图
实现通用对象matting任务的实时性能一直是一个具有挑战性的问题,至今没有解决方案。借助我们的轻量级推理网络IamAlpha,我们首次能够以最低的计算成本实现实时高质量的alpha映射(表1)。我们的网络在NVIDIA GTX 1080Ti GPU上以60fps的速度提供一流的质量,在高通Snapdragon 888移动芯片组的NPU上以30fps的速度提供一流的质量
4 实验
4.1 数据集和评估指标
4.1.1 训练数据集
用于训练的数据是由基于alpha的随机背景组成的前景生成的。由于缺乏可公开获取的训练数据集,我们从无版权网站收集了一组440个独特的前景,并在内部对其进行了注释。该数据集集合在所有人类和非人类对象之间保持了平等的分布,这些对象再次分布在各种透明胶片上,即高度透明、强透明、中等透明和低透明[12]。然后,这些独特的前景图像由2000多个独特的真实背景组成,形成一个880k图像的数据集,用于训练。
4.1.2评估指标
基于这六个参数,我们将我们的模型与现有技术进行定性和定量比较:均方误差(MSE)、梯度误差(GRAD)、绝对差之和(SAD)、连通性误差(Connect)、千兆乘法累加运算(GMAC)和参数数量,如表1所示。这些比较是在领先的基准上进行的,即alphamatting。com[12]和Adobe Composition 1k测试集[17],这是一些最常用的基准指标,用于比较最先进的alpha matting模型。
4.1.3训练详情
该模型使用Adam优化器进行训练,基本学习率为1e-4,动量为0.9。我们使用多项式学习率调度器,它在第16批的300k迭代中下降到1e-6。训练在特斯拉P40 GPU上进行,为期2周。输入预处理和扩充在这里起着关键作用。训练图像随机向下采样到0.8的比例,以避免质量损失。执行诸如旋转、颜色抖动、平移等增强。Lanczos resizer用于向下采样,以保留alpha中的最大边缘和梯度。
4.2烧蚀研究
为了证明所选模型架构的有效性,我们进一步讨论了所进行的广泛研究。
4.2.1辅助Trimap解码器
Trimaps在决定输出质量方面起着非常关键的作用。Xu等人[17]和其他人一样,也指出了α质量如何随着trimap未知值的增加而降低。此外,在处理从分段网络创建的trimap时,trimap自适应任务变得非常必要。因此,我们进行了一项消融研究,分析了使用trimap校正作为辅助任务的影响,其中一个普通编码器学习仅瞄准一小部分未知像素,而不是整个图像。在索引网[11]中也进行了类似的尝试,他们开发了深度定制架构层,以便只关注trimap的某些索引。我们对解耦Trimap自适应任务的研究证明,在没有任何计算开销的情况下(表1中的Base与Base+AN(辅助网络))可以有效地将损失减少一半。
4.2.2可训练重量
我们的损失函数专门设计用于alpha和trimap任务的可训练权重(TW)。最初,权重σ1和σ2的初始化值均为4。在10%的训练后,向优化器添加可训练权重,使损失权重根据手头的单个任务进行动态调整,并产生最佳的总体指标(表1中的基数+AN vs基数+AN+TW)。
5结果和讨论
在本节中,我们报告了我们的模型IAMAAlpha,并对其进行了定性和定量的测试。
5.1定量评估
5.1.1 AlphaMatting。com在线基准测试[12]
alphamatting。com[12]是一个非常流行的“通用对象”图像抠图基准,它将不同alpha透明度(强、高、中、低透明度)的低分辨率图像与各种trimap配置(小、大和用户)进行比较。我们在所有指标中取得了最高的排名,即SAD、MSE、Grad和连通性,在提交时目前所有已发表的作品中(表1)。这证明了我们的trimap校正技术与该基准上的“用户”trimap相比的有效性。相应的alpha matte输出也可在其网站上获得。FBA[5]的结果没有被引用,因为该网站似乎已经删除了它,而该基准提供了基于当前排名的分数,因此论文中引用的旧数字可能无法表明其在基准上的当前位置。
5.1.2 Adobe Composition 1k数据集[17]
此测试数据集包含50多个唯一的通用对象FG,每个FG由Pascal VOC数据集的20多个唯一背景合成。尽管此测试集使用了来自groundtruth alpha地图的trimaps,但我们的轻量级移动模型IAMAAlpha仍然超过了大多数最先进的GPU网络。我们的参数和GMAC几乎是领先的FBA[5]matting模型的三分之一。FBA[5]模型利用非常深的模型同时预测所有前景背景和Alpha。这使得该模型对于任何未来的实时应用程序来说都过于沉重。
5.2定性评估
我们提出的模型的定性结果已根据最先进的GPU模型在以下两个参数上进行了评估:
5.2.1复杂背景
如图4所示,即使是最好的GPU Matting模型之一,FBA[5]也会显示具有高度纹理背景的误报,尽管这种结构在输入trimap中被标记为确定背景的一部分。由于合成1k数据集[17]使用了低分辨率背景(图3),测试集不足以支持真实场景。在这种情况下,我们的模型利用辅助trimap的能力,根据全局上下文对图像中的未知像素进行分类,同时减少输入trimap中的未知区域(图3输入trimap(b)与自适应trimap(f))。
5.2.2原油Trimaps
一个好的trimap,无论是由人类互动产生的,还是由地面真相alpha mattes产生的,在现实生活中都是不可行的。自动生成TRIMAP的最佳方法是利用实时语义分割网络,如BiSeNetv2[18]。图1和图2(第1行和第2行)中的模型表明,它也可以适应这种情况,并将trimap扩展到具有类似前景特征的区域,从而生成适当的alpha蒙版。另一方面,我们可以看到,即使是最好的网络,如FBA[5],也只能在提供了基于地面真相alpha的trimaps时才能工作,从而使我们关于trimap校正的主张在alpha matting任务中更加突出。
5.3计算复杂性评估
为了构建更快的网络,Sengupta等人[14]引入了一种新的仅用于人像底图的有限实用网络RTBM[10],在该网络中,他们将缩小比例的合成图像和背景RGB图像作为输入传递到网络中,并在内部使用双线性上采样器重新调整大小,以在GPU上以60fps的速度提供全高清底图。另一方面,我们的通用对象matting移动网络IamAlpha处理全分辨率输入,并使用任务解耦,以更少的GMAC和模型参数(表1)生成更优异的指标,在GPU上的性能超过60fps,在移动硬件上的性能超过30fps。这有助于我们的网络从全尺寸输入中掌握精细的matting结构,只需一个单通道输入trimap即可从任何语义分割网络轻松生成。
6结论
介绍了一种解耦alpha matting和trimap自适应任务的新技术。我们首次实现了高质量的alpha matting网络IAMAAlpha,能够以每秒30帧的速度部署在移动设备上,并以每秒60帧的速度部署GPU,以获得全高清图像。我们提出的网络不仅以减少未知区域为目标,还试图处理基于分割的trimaps中的误报。拥有一个可拆卸的trimap网络有助于我们减少alpha解码器的负载,从而为alpha Matting提供一个轻量级的推理网络,该网络目前在全球基准alpha Matting的定性和定量方面都能产生最先进的结果。com[12]在所有已出版作品中