Multi-scale Location-aware Kerne
论文链接:https://arxiv.org/abs/1804.00428
代码链接:https://github.com/Hwang64/MLKP
0 摘要
尽管Faster R-CNN及其变体在目标检测方面表现出了良好的性能,但它们仅利用目标建议的简单一阶表示来进行最终分类和回归。最近的分类方法表明,将高阶统计信息集成到深卷积神经网络中可以取得显著的改进,但其目标是通过丢弃位置信息来建模整个图像,从而其不能直接用于目标检测。本文试图利用高阶统计量进行目标检测,为了产生更具鉴别性的proposals表示方法,为提高检测性能。为此,我们提出了一种新的多尺度位置感知核表示(MLKP),用于捕获proposals中深层特征的高阶统计信息。我们的MLKP可以通过使用低维多项式核逼近在多尺度特征图上进行有效计算。此外,与现有的基于高阶统计的无秩序全局表示不同,我们提出的MLKP具有位置保持性和敏感性,可以灵活地用于目标检测。通过整合到更快的R-CNN模式中,所提出的MLKP在Pascal VOC 2007、VOC 2012和MS COCO基准测试中分别以最先进的方法实现了非常有竞争力的性能,并将Faster R-CNN分别提高了4.9%(MAP)、4.7(MAP)和5.0%(AP at IOU=[0.5:0.05:0.95])。代码可从以下网址获取:https://github.com/hwang64/mlkp。
1 引言
目标检测是计算机视觉界最基本、最热门的课题之一,近几十年来引起了人们的广泛关注。快速有效的目标检测方法在自动驾驶[5]、手术导航[14]和视频监控[39]等许多应用中发挥着关键作用。随着深卷积神经网络(CNN)的迅速发展[35,16,36],目标检测性能得到了显著提高。R-CNN[12]是第一个利用深度CNN的输出来表示预先生成的目标proposal的代表。R-CNN极大地改进了传统的DPM[9]及其变体[2],传统的使用了手工制作的功能。除了R-CNN之外,Fast R-CNN[11]还引入了一个感兴趣区域(ROI)池层,以在只有一个CNN通路的情况下,在特征图上生成所有目标proposal的表示,从而避免了通过深度CNN分别传递每个目标proposal,从而使得更快的训练/测试过程。此外,Faster R-CNN[33]设计了一个区域候选网络(RPN),用于学习生成候选,而不是使用传统方法预先生成的候选[40、37、1]。通过将RPN与Fast R-CNN网络(FRN)相结合,Fast R-CNN通过端到端学习开发了一个统一的框架。Faster R-CNN在目标检测方面表现出了良好的性能,并且由于其有效性和效率之间的良好权衡,已经成为一个强有力的基准[17]。
图1. 比较我们的MLKP与Faster R-CNN及其两个变种(即HyperNet[24]和RON[23])。显然,(a)在单个卷积层上Faster R-CNN定位不准确,并且错误地定位了许多小而硬的对象。(b)HyperNet和(c)RON改进了检测结果,但它们仍然错误地定位了远离相机的人。此外,这三种方法对植物定位错误,这与背景非常相似,因此很难进行检测。(d)我们的MLKP在定位和分类方面对图像中的所有目标都表现得很好,因为它具有更具识别性的位置感知表示。
随后,许多方法[26、23、3、15、20、24、34]进一步改进Faster R-CNN,这些方法主要集中在一个问题上:原来Faster R-CNN只利用单卷积(conv)层(即最后一层)的特征图,导致丢弃不同分辨率的信息,特别是对于小目标。如图1(a)所示,Faster R-CNN无法检测到一些小物体,如远离摄像机的人。解决这一问题有两个研究方向,即特征图拼接[3、15、20、24、34]和金字塔特征层次[26,23]。基于连接的方法通过将不同卷积层的输出(例如,hypernet[24]中的vgg-16[35]的conv1.3、conv3.3和conv5.3)连接到一个单独的特征图中,获得每个目标建议的粗到细的表示。对于基于金字塔特征层次的方法,它们以金字塔的方式组合不同卷积层的输出(例如,conv5.3、conv5.3+conv4.3和conv5.3+conv4.3+conv3[26])。此外,每个组合给出了自己的预测,所有检测结果采用非最大抑制融合。如图1(b)和(c)所示,基于连接的方法(如Hypernet[24])和金字塔特征层次(如Ron[23])都可以通过使用不同分辨率的特征来提高性能。
figure4. proposal的位置权重网络的图示尽管上述方法可以通过Faster R-CNN提高检测精度,但它们都只能利用特征图的一阶统计信息来表示ROI池中的目标proposal。最近对具有挑战性的细粒度可视化分类的研究[4、22、38、6]表明,高阶统计表示可以捕获比一阶更具辨别力的信息,并获得有希望的改进。在此基础上,我们提出了一种多尺度位置感知核表示(MLKP),将高阶统计信息纳入ROI池阶段,以实现有效的目标检测。如图1所示,基于连接[24]和基于[23]的金字塔特征层次的方法错误地定位了被遮挡的人远离相机。此外,这些方法会误导植物,这与背景非常相似,因此很难检测到。由于使用了更具辨别力的高阶统计数据,我们的MLKP预测了所有对象的更准确位置。
figure2. 我们的多尺度位置感知内核表示(MLKP)概述。多项式核表示可以分解为1×1×d^r卷积运算和元素相关积⊙。给出了一个多尺度特征映射X(参见图3了解多尺度特征集⊎的细节),我们的MLKP首先执行卷积运算和元素相关积来计算r阶表示z^r,然后学习了一个具有参数Θm和重新映射运算1⊗(参见图4了解细节)的位置权重网络m来评估每个位置的贡献。所有阶多项式核逼近的输出被连接起来,以生成最终表示(参见eqn)。(5)之后,位置信息仍然保持不变,以便在最终分类和回归中采用常用的RoI池化。
图2阐述了我们提出的MLKP概述,通过修改[15]中的多尺度策略,我们利用不同卷积块中的多层特征,将它们连接成一个单一的特征图。然后,我们计算这些特征图上的高阶统计量。众所周知,统计信息的维数一般是dk,其中d是特征维数,k是统计信息的阶数。在我们的例子中,d通常非常高(例如,512或2048 in[35,16]),这会导致更高的维度表示[28,38]并承受较高的计算和内存成本。为了解决这一问题,我们采用基于多项式核逼近的高阶方法[4],它可以有效地生成低维高阶表示。为此,内核表示可以通过1×1卷积运算再加上元素相关积来重新表述。除了高阶核表示,我们引入了一个可训练的位置权重结构来评估不同位置的贡献,使我们的表示位置更加敏感。最后,将不同的表示顺序连接起来进行分类和回归。注意,与[4]中的全局平均池化不同,我们使用了[33]中提出的最大ROI池化,这更适合于检目标测。综上所述,我们的MLKP是一种多尺度的,位置感知的,高阶的表示,设计用于有效的目标检测。
我们根据三个广泛使用的基准,即Pascal VOC 2007、Pascal VOC 2012[8]和MS Coco[27]评估提出的的MLKP。本文的贡献总结如下:
(1)我们提出了一种新的多尺度位置感知核表示(MLKP),据我们所知,这是第一次尝试将具有识别性的高阶统计信息纳入目标候选的表示中,以实现有效的目标检测。
(2)我们的MLKP基于多项式核逼近,因此可以有效地生成低维高阶表示。此外,MLKP固有的位置保持和敏感特性保证了它可以灵活地用于目标检测。
(3)在三个广泛使用的基准上进行的实验表明,我们的MLKP的性能比原来Faster R-CNN显著提高了,并且与最先进的方法相比表现良好。
2 相关工作
与基于区域的检测方法(如Faster R-CNN及其变体)相反,另一个研究方向是设计无区域检测方法。其中,yolo[31,32]和ssd[10,29]是两种有代表性的方法。Yolo[31]利用一个单一的神经网络直接从全图像中预测bounding boxes和类概率,并根据检测训练训练具有损失函数的网络。与Yolo不同的是,SSD[29]将边界框的预测空间离散为多个特定卷积层上的一组默认框。为了进行推理,他们计算每个默认框对不同对象类别的得分。尽管与基于区域的方法相比,无区域方法具有更快的训练和推理速度,但这些方法放弃了区域proposal的生成,因此它们经常与小目标发生冲突,无法过滤出属于背景的负样本。此外,实验结果表明,我们的方法可以获得比最先进的无区域检测方法更高的精度(见第4.3了解更多细节)。请注意,将我们的MLKP纳入无区域方法是间接的,在无区域方法中,MLKP不能代表任何目标proposal。这个有趣的问题将来值得研究。
最近的研究表明,将高阶统计数据与深度CNN相结合可以提高分类性能[4、6、18、28、25、38]。其中,将全局二阶归一化方法[18,25,28]插入到深度CNN中,表示整个图像,其中对卷积特征的外积之和进行了精确计算,然后分别执行元素功率归一化[28]、矩阵对数归一化[18]和矩阵功率归一化[25]。王等。[38]将可训练的全局高斯分布嵌入深度C-NNS中,利用深度卷积特征的一阶和二阶统计。然而,这些方法都产生了非常高的维数无序表示,不能直接用于目标检测。[4,6]中的方法分别采用多项式和高斯RBF核函数来近似高阶统计量。这种方法可以有效地生成低维高阶表示。但是,与设计用于整个图像分类的方法不同,我们的MLKP具有位置保持性和敏感性,以确保它可以灵活地用于目标检测。
3 提出方法
在本节中,我们介绍了所提出的多尺度位置感知核表示(MLKP)。首先,介绍了一种改进的多尺度特征图,以有效地利用多分辨率信息。然后,通过多项式核函数逼近得到了一个低维高阶表示。此外,我们还提出了一种可训练的位置权重结构,并将其应用于多项式核函数逼近,从而实现了一种位置感知的核表示。最后,我们展示了如何将MLKP应用于目标检测。
3.1. 多尺度特征图
最初的Faster R-CNN只利用最后一个卷积层的特征图进行目标检测。最近的许多工作[3,15,24,34]显示了前面卷积层的特征图具有更高的分辨率,有助于检测小物体。这些方法表明,结合不同卷积层的特征图可以提高检测性能。现有的多尺度目标检测网络都利用每个卷积块中最后一层的特征图(例如,vgg-16[35]中的conv5.3、conv4.3和conv3.3层)。虽然更多的特征图通常带来更多的改进,但是它们会遭受更高的计算和内存成本,特别是对于那些更接近输入的层。
figure3.我们使用VGG-16改进的多尺度特征图的概述[35]。请参阅图2。与上述多尺度策略不同,本文建议利用每个卷积块的多层特征图。如图3所示,我们的方法首先将不同的卷积层连接在同一卷积块中(例如,vgg-16[35]中的conv5 3和conv5 2层),然后对不同卷积块的特征图(例如,vgg-16[35]中的conv4和conv5块)执行元素求和。
因为不同的卷积块具有不同尺寸的特征图。特征图需要有相同的大小,以便可以执行按元素排序的求和操作。如[34]所示,使用一个向上采样操作来增大后一层中的特征图的大小。为此,利用反卷积层[10]来放大后一层特征图的分辨率。最后,我们在原始模型[33]中添加了一个1×1的具有步长2的卷积层来恢复特征图的尺寸,因为特征图的尺寸在上采样后比原始模型大了两倍。实验结果在秒。4.2展示我们改进的多尺度特征图可以以更低的计算成本实现更高的精度。
3.2. 位置感知内核表示
最近挑战性的细粒度可视化分类任务的进展表明,将高阶表示与深度CNN集成可以带来有希望的改进[4、6、28、38]。然而,由于特征图尺寸大、位置信息缺失,这些方法不能直接用于目标检测。因此,我们提出了一个位置感知的多项式核表示,以克服上述限制,并将高阶表示集成到目标检测中。设X ∈R(K×M×N)为特定卷积层的三维特征图。然后,我们在X的高阶统计数据上定义了一个线性预测因子w[4]。
其中x∈RK表示x的局部描述符。这里,括号内第二项表示以齐次多项式核为特征的高阶统计量[30]。因此,上式(1)可以重新制定为:
式中,R是阶数,Wr是包含r阶预测器权重的r阶张量,xkj表示x的kj th元素。假设Wr可以用dr rank-1张量来近似[21],即
式子(1)能够被进一步写成:
这里,
ar是权重向量。
基于等式(3),通过学习权重w1、ar和
的参数,我们能够计算任意阶的表示。如[4]所示,我们首先关注zr的计算。设zr={zr}。通过定义
,我们可以通过对Dr通道执行r-th 1×1卷积层来获得
,其中r和Dr分别表示张量的order和rank。一般来说,Dr要比原始特征图的维数大得多,以获得更好的近似值。这样,高阶多项式的核表示就可以计算如下。在给定输入特征映射x的情况下,我们计算r阶表示的特征映射Zsr={Zsr},并在x上对Dr通道进行r-th 1×1卷积,表示为
然后是所有特征图的元素相关积,即
最后,采用全局最大池化来获得无序表示,作为线性预测的输入[4]。
然而,无次序表示不适用于目标检测。引入全局最大池化后,位置信息被丢弃,从而使其对边界框回归无效。幸运的是,我们注意到1×1卷积和元素相关积可以保存位置信息。因此,我们可以简单地删除全局最大池化操作,并使用Zr作为内核表示。此外,Zr的尺寸为Dr×w×h(如网络中Dr=4096),远小于[25]中采用的特征图尺寸c2,其中c为原始特征图的尺寸x(如c=1024)。
此外,部分特征映射对于定位目标更有用,它们应该具有更大的权重。为此,我们提出了一种位置感知表示,将位置权重集成到高阶内核表示中。为了计算我们的位置感知内核表示,我们向Zr引入了一个可学习的权重,
这里,⊗表示元素相关积;m是一个可学习的cnn块,其参数Θm为获得位置感知权重,1⊗是一个重新映射操作,指示矩阵m沿通道方向的复制,以形成一个与Zr大小相同的张量,用于后续的元素相关积操作,如图4所示。一个没有标识跳过连接的残余块用作我们的位置权重网络。通过三个不同的卷积层,得到一个加权特征图,特征图中的每个点代表对检测结果的贡献。
最后,将具有不同阶次
的x表示连接成一个特征映射,生成高阶多项式核表示。
此外,与使用全局平均池化[4]计算多项式核表示不同,我们提出利用特征映射G(X)上的最大ROI池化,对每个对象proposal计算高阶多项式核表示,以保留位置信息。
为了以端到端的方式训练我们的方法,与损失函数相关的x的导数、参数Usr,d,Θm能够通过式(3)(4)获得。
∂m/∂Θm能够通过位置权重网络的反向传播获得。虽然可以通过使用多个位置权重网络来学习不同的内核表示顺序的位置权重,但是我们共享相同的内核表示顺序的位置权重,以在有效性和效率之间实现平衡。
3.3.目标检测的MLKP
上面描述了所提出的多尺度位置感知核表示方法(MLKP),并说明了如何将MLKP应用于目标检测。如图5所示,我们采用与Faster R-CNN[33]类似的检测通道。具体来说,我们首先通过基本CNN模型中的卷积层传递输入图像(例如,VGG-16[35]或Resnet[16])。然后,在区域候选网络(RPN)生成目标候选的同时,计算卷积层输出的MLKP。最后,将MLKP和RPN相结合的ROI池化层用于分类和回归。这个网络可以以端到端的方式进行训练。
figure5. 提出的基于MLKP的目标检测网络。
4.实验
在本节中,我们在三个广泛使用的基准上评估了我们提出的方法:Pascal VOC 2007、Pascal VOC 2012[8]和MS COCO[27]。我们首先描述MLKP的实施细节,然后对PascalVOC 2007进行消融研究。最后,在三个基准上与现有技术进行了比较。
4.1.实施细节
为了实施我们的MLKP,如第3.3节所述,我们采用了类似Faster R-CNN的框架,并按照现有方法对我们的网络进行训练[23、29、24、7、10、3]。我们使用ImageNet预训练基本模型[35,16]初始化网络,并使用Xavier[13]方法初始化MLKP中的层权重。第一步,我们冻结基本模型中的所有层,只训练MLKP和RPN层。其次,通过降低学习率,对整个网络进行两个阶段的训练。我们的程序由caffe工具包[19]在n-vidia 1080ti GPU上实现。根据Faster R-CNN[33]中常用的设置,输入图像被精确归一化,然后我们使用两种深度CNN作为基本网络,包括VGG-16[35]和RSENET-101[16]。平均精度(MAP)用于测量不同的检测器。请注意,我们在所有实验中都使用单尺度训练和测试,并在三个数据集上与最先进的方法进行比较,这些数据集没有 bells and whistles。
4.2.PASCAL VOC 2007上的消融实验
在本小节中,我们首先评估了我们的MLKP在PascalVOC 2007上的关键组成部分,包括多尺度特征图、位置感知多项式核表示和位置权重网络的影响。如[33]所示,我们在VOC 2007和VOC 2012中对训练/验证集的网络进行了训练,并将VOC 2007测试集的结果报告进行比较。
多尺度特征图。在这部分中,我们研究了不同的多尺度特征图生成策略对检测性能的影响。一般来说,更多卷积特征图的集成带来了更多的改进,但导致了更多的计算成本。现有的多尺度方法都只考虑每个卷积块最后一层的特征映射。与之不同的是,我们提出了一种改进的策略来利用每个卷积块中多个层的特征图。Tab1列出了PascalVOC 2007上具有不同卷积层的多尺度特征图的映射和推断时间(每秒帧数,fps)。请注意,我们使用原始Faster R-CNN进行目标检测,目的是研究不同策略的效果。
从表1的结果中,我们可以看到更多卷积特征图的集成确实带来了更多的改进。然而,使用conv5 3+conv4 3+conv3 3的特征图仅比使用conv5 3+conv4 3的功能图获得0.1%的增益,但运行速度大约慢两倍。在我们的改进策略中,conv5 3/2比conv5 3的单层高出2.8%的推理时间。conv5中两层相对于一层的收益可能是由于卷积块中不同层的互补性,这增强了proposals的表示能力。同时,conv5 3/2+conv4 3/2可以进一步提高conv5 3/2的mAP0.5%,计算成本更低。最后,conv5 3/2+conv4 3/2的mAP优于conv5 3+conv4 3+conv3和conv5 3+conv4 3。推理时间相同或更少。上述结果表明,我们的改进策略比现有策略更有效。
位置感知内核表示。接下来,我们分析了在单尺度和多尺度特征图的设置下提出的位置感知核表示方法。如等式(3)所示,我们的位置感知内核表示涉及两个参数,即order-r和dimension Dr。为了获得有效检测的紧凑表示,本文只考虑order-r=1,2,3。同时,Dr的尺寸从2048到8192不等。我们在表2中总结了MLKP的各种order-r和Dimension Dr的结果。其结论如下。
首先,在单尺度和多尺度特征图的设置下,我们的位置感知内核表示法将一阶表示法的基线分别提高了3.4%和1.6%。它证明了由位置感知内核表示带来的高阶统计的有效性。其次,适当的高阶统计量可以获得期望的性能,但随着阶数数量的增加,收益趋于饱和。因此,整合过多的高阶统计数据将获得较少的收益,更高维度的Dr映射不一定会得到更好的结果。最后,多尺度特征图和位置感知核表示都可以显著提高检测性能,同时减少额外的推理时间,两者的结合可以进一步提高检测性能。
位置权重网络的影响。在本小节的最后部分,我们评估了位置权重网络对我们的MLKP的影响。在这里,我们使用了3阶和4096维的内核表示,这达到了上面所示的最佳结果。请注意,图4中我们的位置权重网络非常小,每张图像的成本仅为7毫秒。带/不带位置权重网络的内核表示结果如图6所示,我们可以看到,在各种特征图设置下,位置权重网络可以实现0.3%~0.8%的改进。同时,对于更有效的特征图,位置权重网络获得了更大的收益。注:当使用更有效的conv5 3/2+conv4 3/2特征图时,位置权重网络得到0.8%的改进,这是非常重要的,因为没有位置权重网络的对应项得到了一个很强的基线结果(77.3%)。
4.3. 与先进检测器的比较
为了进一步评估我们的方法,我们在三个广泛使用的基准上(即,Pascal VOC 2007、Pascal VOC 2012[8]和MS COCO[27]),将MLKP与最近提出的几种最先进的方法进行了比较。
4.3.1. Pascal VOC 2007结果
在Pascal VOC 2007上,我们将我们的方法与七种最先进的方法进行了比较。具体来说,网络在第一步接受了120k次迭代的训练,学习率为0.001。然后,对整个网络进行优化,使其适应学习率为0.001的50K迭代和学习率为0.0001的30K迭代。在总共三个步骤中,动量衰减和动量分别设置为0.0005和0.9。为了进行公平比较,除R-FCN[7]以外的所有竞争方法都使用单输入大小,无需多尺度训练/测试和box投票。表3中列出了使用VGG-16[35]和Resnet-101[16]模型的不同方法的结果(每个类别的AP和mAP)
如表3所示,当采用VGG-16模型时,我们的MLKP将Faster R-CNN提高了4.9%。由于与Faster R-CNN共享了完全相似的框架,因此,我们提出的的MLKP有很大的收获。同时,我们的方法也优于Hypernet[24]、Ionnet[3]和Ron[23],分别超过1.8%、1.6%和0.5%。对上述方法的改进证明了位置感知高阶内核表示的有效性。此外,我们的MLKP比最先进的无区域法SSD[29]优越0.6%。
然后我们采用Resnet-101模型,我们的MLKP比Faster R-CNN快4.2%。同时,它优于DSSD[10],后者将多尺度信息纳入到SSD方法[29]中。此外,MLKP略优于R-FCN[7],即使R-FCN也利用了多尺度的训练/测试策略。注意,R-FCN仅通过单尺度训练/测试获得79.5%的mAP。
4.3.2. Pascal VOC 2012结果
根据Pascal VOC 2007的相同实验设置,我们将我们的方法在Pascal VOC 2012上与最新方法进行了比较。我们为Pascal VOC 2007和Pascal VOC 2012的训练验证集训练网络,并增加了Pascal VOC 2007的测试集。表4中显示了VOC 2012测试集不同方法的结果。我们的MLKP在vgg-16和resnet 101两种基础网略上都取得了最好的效果,其中Faster R-CNN的提高速度分别超过5.1%和3.4%。这些结果再次验证了MLKP的有效性。请注意,VOC 2007和2012的结果表明,我们的方法在检测小和硬物体(如瓶子和植物)方面可以取得显著的改进。
4.3.3. 在MS COCO的结果
最后,我们将MLKP与四种最先进的方法在具有挑战性的MS Coco基准上进行了比较[27]。Coco包含来自80个类别的80K训练图像、40K验证图像和80K测试图像。我们按照常见设置[29]在trainval集上对我们的网络进行训练,并报告从test-dev2017评估服务器获得的结果。因为test-dev2017和test-dev2015包含相同的图像,所以从它们获得的结果是可比较的。由于MS COCO是一个大型的基准,我们采用了四个GPU来加速训练过程。我们采用与PascalVOC数据集相同的超参数设置,但对网络进行训练时,包含更多训练图像的MS COCO迭代次数要多。具体来说,我们在第一步用600K迭代训练网络,并分别对150K和100K迭代执行学习率为0.001和0.0001的微调。我们采用single-train 和single-test 策略,并采用MS Coco上的标准评估指标进行比较。
表5中给出了比较结果。由于Faster R-CNN只报告了两个数值结果,我们使用[33]中发布的模型进行了额外的实验。在采用VGG-16网络时,我们的MLKP可以在IOU[0.5:0.05:0.95]上提高5.0%以上的速度,并且优于其他竞争方法。对于Resnet-101主干网络,我们的方法优于最先进的无区域方法DSSD和SSD 0.6%。特别是,所提出的MLKP改进了竞争方法中小型物体的检测。
5. 结论
本文提出了一种新的位置感知核逼近方法来表示有效目标检测的目标proposal,据我们所知,这是第一种利用高阶统计量提高目标检测性能的方法。我们的MLKP充分利用了多尺度卷积特征的统计信息。与the first-order 相比,显著的改进证明了我们的MLKP的有效性。在三种常用基准上的实验结果表明,该方法具有很强的竞争力,表明高阶统计量的集成是提高目标检测的一个令人鼓舞的方向。由于我们的MLKP是独立于框架的,因此我们计划将其扩展到其他框架。