ICCV 2019 旷视科技11篇优秀论文预览
1、论文名称:Objects365: A Large-scale, High-quality Dataset for Object Detection
关键词:物体检测、数据集
在本文中,我们介绍了一个新的大型对象检测数据集Objects365,它拥有超过600,000个图像,365个类别和超过1000万个高质量的边界框。
由精心设计的三步注释管道手动标记,它是迄今为止最大的对象检测数据集合(带有完整注释),并为社区创建了更具挑战性的基准。
Objects365可用作更好的特征学习数据集,用于对位置敏感的任务,例如目标检测和分割。Objects365预训练模型明显优于ImageNet预训练模型:当在COCO上训练90K / 540K迭代时,AP改善了5.6(42 vs 36.4)/ 2.7(42 vs 39.3)。
同时,当达到相同的精度时,可以大大减少微调时间(差异的10倍)。Object365的更好的泛化功能也已在CityPersons,VOC Segmentation和ADE中得到验证。我们将发布数据集和所有预先训练的模型。
2、论文名称:ThunderNet: Towards Real-time Generic Object Detection
关键词:通用物体检测
在计算机视觉领域,如何在移动设备上实现实时目标检测是一项非常重要且非常具有挑战性的任务。
然而,当前基于CNN的目标检测网络通常需要巨大的计算开销,导致这些网络模型不被部署在移动设备上。
在本文中,我们探讨了两阶段目标检测模型在移动实时目标检测任务中的有效性,并提出了一个轻量级的两阶段目标检测模型ThunderNet。
在骨干网中,我们分析了先前轻量级骨干网的缺点,并提出了一种专为目标检测任务设计的轻量级骨干网。
在检测网络部分,我们采用了非常简单的RPN和检测头设计。
为了产生更具辨别力的特征表示,我们设计了两个网络模块:上下文增强模块(CEM)和空间注意模块(SAM)。
最后,我们探讨了轻量级目标检测模型的输入分辨率,骨干网络与检测头之间的计算开销的平衡。
与之前的轻量级单级目标检测模型相比,ThunderNet仅需要40%的计算开销,即可在Pascal VOC和COCO数据集上获得更好的检测精度。
ThunderNet还在移动设备上实现了24.1fps的实时检测。众所周知,这是ARM平台上报告的第一个实时检测模型。
4、论文名称:Semi-supervised Skin Detection by Network with Mutual Guidance
关键词:半监督学习、皮肤分割
我们提出了一种新的数据驱动皮肤分割方法,该方法可以从单个肖像图像中稳健地计算皮肤区域。
与之前的方法不同,我们使用人体区域作为弱语义指导,考虑到很难获得大量手动标记的皮肤数据。
具体来说,我们提出了一个双任务网络,通过半监督学习策略联合检测皮肤和身体。该网络由一个共享编码器和两个独立的解码器组成,分别检测皮肤和身体。
对于任何解码器,其输出也起到另一个解码器的作用。
这样,两个解码器实际上互相启动。
大量实验证明了相互制导策略的有效性,结果也表明该方法在皮肤分割任务中优于现有方法。
5、论文名称:Semi-Supervised Video Salient Object Detection Using Pseudo-Labels
关键词:半监督学习、视频检测
基于深度学习的视频聚焦区域检测已经超过了大量无监督方法。但是这种方法依赖于大量手动标记的数据。
在本文中,我们使用伪标签来解决半监督视频焦点区域检测问题。
具体地,我们提出了一种视频聚焦区域检测器,其包括空间信息改善网络和时空模块。
基于这样的结构和光流,我们提出了一种从稀疏标记的帧生成像素级伪标签的方法。使用生成的伪标签和部分手动注释,我们的探测器学习了时空对比度和帧间一致性的线索,从而产生准确的聚焦区域。
实验表明,该方法大大超过了跨多个数据集的现有完全监督方法。
6、论文名称:Disentangled Image Matting
关键词:图像去背景
我们提出了一个新的图像匹配问题框架。
大多数先前的图像去除算法基于输入三元图计算图像的指定区域中的阿尔法值(alpha)。
对于划分为三部分图的一元区域的完整背景和前景像素,这些方法期望准确地生成alpha值和零值。
本文指出,之前的解决方案实际上将两个不同的问题混合在一起:
1.区分要确认的区域中的前景,背景和混合像素;
2.准确计算混合像素的alpha值。
其中,我们将第一个任务称为Trimap Adaptation,第二个任务是Alpha Estimation。
三部分图形调整是典型的分类问题。α值估计是典型的回归问题。本文提出的端到端AdaMatting框架通过使用多任务学习分别解决了这两个问题。目前,在多个图像数据集的所有常用指标中都实现了最佳结果。
7、论文名称:Re-ID Driven Localization Refinement for Person Search
关键词:行人搜索
在许多应用中,检测器充当上游任务,结果直接影响下游任务,尤其是检测框架的定位精度。
目前的主流实践是在不考虑下游任务的情况下单独训练探测器,因此得到的探测帧不一定是下游任务的最佳选择。
在本文中,我们以行人搜索任务为例,提出了一种优化检测框架定位精度的新方法,使其更适合于给定的任务。
行人搜索旨在从完整的图片中检测和识别行人,分为两个任务:检测和行人识别(Re-ID)。本文提出了一种重新ID驱动的定位调整框架,该框架使用重新ID丢失来微调由检测网络生成的检测帧。
本文设计了一种可导出的ROI转换模块,它可以根据检测帧的坐标从原始图像输出相应的位置图像,然后将其发送到re-ID网络。
由于可以引导整个过程,因此重新ID丢失可以监督检测帧的坐标,从而使检测网络能够生成更适合于行人搜索该任务的检测帧。
通过大量的实验结果,本文的方法在多个数据集上实现了最先进的性能。
8、论文名称:Vehicle Re-identification with Viewpoint-aware Metric Learning
关键词:车辆再识别、度量学习
在车辆重新识别任务中,极端视角变化(将视角改变到180度)对现有方法构成巨大挑战。
受人类认可车辆认知风格的启发,我们提出了一种基于视角感知的度量学习方法。
该方法在两个特征空间中学习两个度量以获得相似的视角和不同的视角,从而生成透视感知网络(VANet)。
在培训过程中,我们对联合培训采用了两个约束条件。
在测试过程中,我们首先估计车辆的视角,并使用相应的指标根据估计结果对其进行测量。
实验结果证实,VANet可以显着提高车辆重新识别的准确性,并且在识别具有不同拍摄角度的车辆对方面更有效。我们的方法可以在两个基准数据集上获得最佳结果。
9、论文名称:MetaPruning: Meta Learning for Automatic Neural Network Channel Pruning
关键词:模型压缩、元学习
通道修剪是一种有效的模型压缩方法。我们的方法MetaPruning提出了一种新的修剪思想。
传统修剪通常需要手动或基于某些经验标准来设置每层的压缩比,然后迭代地选择要移除的通道,这是耗时且劳动密集的。
MetaPruning,跳过要选择的频道并直接搜索为每个图层保留的频道数。
为了有效和准确地找到每个层的最佳信道组合,MetaPruning首先训练PruningNet并使用元学习来预测每个可能的补丁网络(PrunedNet)的准确性。
使用网络体系结构搜索的思想,使用进化算法搜索最佳的PrunedNet。PruningNet直接为PrunedNet预测可靠的准确性,使进化搜索非常有效。
最后,与MobileNet V1 / V2基线相比,MetaPruning的准确度提高了9.0%/ 9.9%。
MetaPruning还实现了比当前最佳基于AutoML的修剪方法更高的精度。
MetaPruning非常灵活,可以应用于FLOP下的修剪或特定硬件速度限制的修剪。
10、论文名称:Symmetry-constrained Rectification Network for Scene Text Recognition
关键词:文字识别
由于文本字体,形状和自然场景的复杂性,自然场景的文本识别始终是一项非常具有挑战性的任务。
近年来,识别不规则形状的场景文本的问题引起了越来越多的研究者的关注。有效且直观的研究方向之一是在识别之前校正文本区域,即识别之前的不规则性。文本被修正为正常形状。
但是,简单的文本校正可能不适用于极度扭曲或弯曲的文本。为了解决这个问题,我们提出了一种ScRN(对称约束整流网络),一种使用文本对称约束的文本校正网络。
ScRN利用了文本区域的许多数学属性,包括文本的中心线,字符大小和字符方向。此信息可帮助ScRN生成准确的文本区域描述,使ScRN能够实现比现有方法更好的校正,从而提高识别准确性。
我们在多个不规则数据集上实现了更高的识别准确度提升(ICDAR 2015,SVT-Perspective,CUTE80)。
11、论文名称:Learning to Paint with Model-based Deep Reinforcement Learning
关键词:强化学习、绘画
何制作像画家一样的机器,用几支笔创作出迷人的画作?
结合深度强化学习方法和神经网络渲染器,我们让代理人学会在自我探索中绘制数百个笔画的纹理丰富的自然图像。每个笔划的形状,位置和颜色由其自身确定。
代理人的训练过程不需要人体绘画经验或笔画轨迹数据。
论文和源码地址:关注微信公众号:“图像算法”或者微信搜索imalg_cn 可获取