3d目标检测调研
在达摩院做3d目标检测,简单调研一下。
一、大纲
1、定义
使用RGB图像、RGB-D深度图像和激光点云,输出物体类别及在三维空间中的长宽高、旋转角等信息的检测称为3D目标检测。
- 输出format [ x, y, z, w, h, l, Θ,Φ,Ψ ]
2、需求
在无人驾驶、机器人、增强现实的应用场景下,普通2D检测并不能提供感知环境所需要的全部信息,2D检测仅能提供目标物体在二维图片中的位置和对应类别的置信度,但是在真实的三维世界中,物体都是有三维形状的,大部分应用都需要有目标物体的长宽高还有偏转角等信息。例如下图Fig.1中,在自动驾驶场景下,需要从图像中提供目标物体三维大小及旋转角度等指标,在鸟瞰投影的信息对于后续自动驾驶场景中的路径规划和控制具有至关重要的作用。

- 基于RGB 的单目目标检测
- 基于RGB-D 的单目目标检测
- 基于激光点云的3d目标检测
- 基于RGB 的双目目标检测
- 基于RGB-D 的双目目标检测
二、基于RGB 的单目/双目目标检测

- Templates Matching based Methods.
region proposals - Geometric Properties based Methods.
先进行2d检测,后将2d框转换为3d检测框 - Pseudo LiDAR based Methods.
生成伪点云,后用点云方法处理
通过计算视差将图像坐标投影回3D空间,以模拟激光雷达信号(以下称为伪激光雷达),然后采用高性能的基于点云的方法
1、Templates Matching based Methods.
(1)、3DOP
3DOP这篇文章是当下使用双目相机进行3D bounding-box效果做好的方法,其是Fast RCNN方法在3D领域之内的拓展。由于原论文发表于NIPS15,出于Fast RCNN的效果并没有Faster RCNN和基于回归的方法好,且远远达不到实时性,因此其处理一张图片的时间达到了4.0s。
它使用一个立体图像对作为输入来估计深度,并通过将图像平面上像素级坐标重新投影回三维空间来计算点云。3DOP将候选区生成的问题定义为Markov随机场(MRF)的能量最小化问题,该问题涉及精心设计的势函数(例如,目标尺寸先验、地平面和点云密度等)。
随着获得了一组不同的3D目标的候选框,3DOP利用FastR-CNN[11]方案回归目标位置。
(2)、Mono3D
(3)、Deep MANTA
2、Geometric Properties based Methods.
(1)、Deep3DBox
(2)、GS3D
(3)、Stereo R-CNN
(4)、FCOS3D: Fully Convolutional One-stage Monocular 3D Object Detection (1st place of NIPS 2020 vision-only nuScenes 3D detection)
论文主要基于FCOS无锚点2D目标检测做的改进,backbone为带有DCN的ResNet101,并配有FPN架构用于检测不同尺度的目标,网络结构如图1所示:
3、Pseudo LiDAR based Methods.
(1)、MF3D
(2)、Mono3D-PLiDAR
(3)、Stereo R-CNN
三、基于点云 的3D目标检测

四、多元信息融合进行3d目标检测
五、评价指标
- bbox:2D检测框的准确率
- 3d: 3D检测框的准确率
- bev: BEV视图下检测框的准确率
- aos: 检测目标旋转角度的准确率
1、Rotated Intersection over Union (IoU3D)


2、AP
基于iou 3d,可以定义出TP和FP
- TP with IoU ≥ threshold
- otherwise is FP
- an undetected ground-truth bounding box is regarded as False Negative (FN).
- Note that true negative (TN) does not apply since there exist infinite possible candidates.
(KITTI, the threshold is set to 0.7 for car, 0.5 for pedestrians 0.5 for pedestrians) - IoU(Intersection over union):交并比IoU衡量的是两个区域的重叠程度,是两个区域重叠部分面积占二者总面积的比例。在目标检测中,如果模型输出的结果与真值gt的交并比 > 某个阈值(0.5或0.7)时,即认为我们的模型输出了正确的结果。
- Precision :检索出来的条目中有多大比例是我们需要的。
- Recall:我们需要的条目中有多大比例被检索出来了。
- AP(Average Precision):平均精准度,对Precision-Recall曲线上的Precision值求均值。

通过绘制精确性×召回率曲线(PRC),曲线下的面积往往表示一个检测器的性能。然而,在实际案例中,"之 "字形的PRC给准确计算其面积带来了挑战。KITTI采用AP@SN公制作为替代方案,直接规避了计算方法。
六、常用数据集
1、KITTI:单目,双目,雷达点云
- The KITTI 3D object detection benchmark [16] is divided into 7,481 training samples and 7,518 testing samples. The training samples are commonly divided into a train set (3,712 samples) and a val set (3,769 samples) following [10], which is also adopted her
- 80 epochs on the KITTI dataset
- a NVIDIA Tesla V100 (32G) GPU.
2、Waymo:单目,双目,雷达点云
- consists of 798 training sequences and 202 validation sequences. The dataset also includes 150 test sequences without ground truth data. The dataset provides object labels in the full 360◦field of view with a multi-camera rig. We only use the front camera and only consider object labels in the front-camera’s field of view (50.4◦) for the task of monocular object detection, and provide results on the validation se- quences. We sample every 3rd frame from the training sequences to form our training set (51,564 samples) due to the large dataset size and high frame rate
- 10epochs on the Waymo Open Datase
- a NVIDIA Tesla V100 (32G) GPU.
3、nuScenes :单目,双目,雷达点云
NuScenes consists of multi-modal data collected from 1000 scenes, including RGB images from 6 cameras, points from 5 Radars, and 1 LiDAR. It is split into 700/150/150 scenes for training/validation/testing. There are overall 1.4M annotated 3D bounding boxes from 10 categories. In addition, nuScenes uses different metrics, distance-based mAP and NDS, which can help evaluate our method from another perspective.
