Consistent Optimization for Sing
2019-11-08 本文已影响0人
小松qxs
titile | Consistent Optimization for Single-Shot Object Detection |
---|---|
url | https://arxiv.org/pdf/1901.06563.pdf |
动机 | single-stage优化目标和inference配置misalignment阻碍性能提升 |
内容 |
Consistent Optimization: 训练时利用refined anchors匹配training hypotheses and the inference quality。 问题: train:classification基于原始anchor训练。 inference:将原始anchor的score赋给refine后的anchor。anchor定位性能在回归前后不同,导致classification得分与refine的anchor定位能力表现不一致。 training-inference configuration: 1、original anchor和refined anchor对应相同gt时影响不大。 2、当两个object相互遮挡,regression会对移动方向混淆。 ![]() 图3说明与gt IoU较小的anchor回归后可以与gt的IoU变大。 ![]() ![]() 1、original anchor和refined anchor定位质量不同,分类基于original anchor训练,score可靠性降低。inter-class confusion(图2)可能NMS去掉准的box。 2、 anchor和gt IOU小于0.5为negative samples, refined后可能和gt的overlaps比较大,但score小被滤除,foreground-background classification error。 3、分类scores方差随着IoU增长不断变大(大于0.9的样本不具备可信度,样本数太少)。这是因为基于original anchor训练的score赋予refined anchor,导致目标anchor的分类方差较大(方差大表示不鲁棒,置信度不高)。 ![]() Consistent Detection: 分类loss额外加入regressed anchors的分类 ![]() 为了与分类保持一致,定位也加入一个refined anchor的子loss ![]() training and inference不需要额外计算。 Discussion and Comparison to Prior Works Cascade R-CNN:one stage依赖conv kernel联系anchor和final prediction,不如ROI-Pooling提取特征容易。 RefineDet: (1)滤除negtive anchors,减少分类范围。 (2)粗定位思想与cascade相似。 与Consistent Optimization两点不同: (a)RefineDet anchor refinement module与Faster R-CNN RPN作用相似。进行粗定位。 本文利用consistent optimization使final prediction更可靠。 (b)RefineDet依靠transfer connection block将feature由anchor refinement module转换到object detection module。本文认为,more parameters是不必要的,主要的性能瓶颈是misalignment between optimization and prediction。 IoU-Net: 学习predicted bounding box和gt box之间IoU,同时使用IoU-NMS检测boxes,guided by the learned IoU。主要目标是保证confidence score与localization performance的一致(实验在two stage)。 |
实验 |
Implementation Details: loss:α = 1 。 Ablation Experiments: Baseline retinanet:2 images per GPU,SGD,backbone:resnet50+FPN。 Ablation Study Comparison with different design choices + Cascade: 1、Cascade RCNN通过ROI提取更精确的features,signle stage很难学习这种transformations。 2、 使用deformable convolution学习transformations仍然失败。 3、所以性能提升主要因为detector更好的训练,而不是more parameters和architecture designs。 ![]() μpos和μneg对结果影响不大,实验使用μpos = 0.6 and μneg = 0.5 ![]() ![]() not increased Generalization Capacity: Across model depth and scale: consistent optimization is widely applicable within one stage object detector,主要在大目标。 ![]() ![]() Comparison to State of the Art ![]() |
思考 |