雷达单目slam：Monocular Camera Trajec

2018-07-10 本文已影响0人陌上尘离

摘要

计算机视觉和摄影测量中的一个众所周知的问题是周围景物的精确实时绘图。由于具有固有7自由度的单个投射传感器的性质，误差累积和尺度漂移仍然是基于视觉的系统的问题。这对于复杂的运动轨迹尤其重要。然而，希望使用廉价的小型系统，例如具有单个摄像机设置的小型无人机。
我们提出了一种简单有效的基于外观的方法，通过使用LiDAR数据在单目视觉建图系统中进行位姿图优化。如果激光扫描可用，我们的系统允许使用单个电光传感器进行鲁棒的建图和定位。我们使用大量合成生成的2-D LiDAR强度图(intensity views)来全局记录相机图像。我们特别提供了生成合成强度图像和从这些数据中提取特征的见解。这使得基于全局外观的2-D相机图像的2-D / 3-D信息成为3-D点云数据。因此，我们能够校正相机轨迹并估计来自单目相机图像的地理参考度量结构。
可能的应用很多，包括自主导航，实时地图更新/扩展或基于视觉的室内地图。

1.简介

遥感和计算机视觉的一项基本任务是绘制周围的景观。 LiDAR（光探测和测距）扫描仪是常见的传感器系统，用于快速精确地采集场景几何信息[8]。不幸的是，LiDAR扫描仪仍然很昂贵，并且通常需要庞大的操作平台。对于现代或实时更新，人们更喜欢非常小而轻的单目传感器系统，例如具有单个相机的迷你/纳米无人机（无人驾驶飞行器）。
最近在同步定位和建图（SLAM）和运动结构（SfM）领域的工作使得大规模建图系统即使对于基于视觉困难的单目传感器情况也是如此。然而，单个投射传感器的固有7自由度导致仅基于视觉的单目建图系统的额外问题。
在这项工作中，我们提出了一种使用基于视觉的利用LiDAR扫描点进行建图的系统。我们特别关注利用多个LiDAR扫描环境的相机图像的全局定位方法。全局定位是指没有初始化的相机图像的6自由度配准。我们使用反向散射的激光强度信息来生成合成图，这使得能够基于多模态外观的相机图像配准全局扫描坐标系。然后，生成的图像对基于视觉的重建施加约束，并允许单目视觉数据的度量和全局参考的3-D重建。

跳过一段相关工作

2. 方法

我们专注于在基于图像的定位和相机轨迹优化模块（图1中的红框）中的LiDAR数据表示和集成，因为跟踪前端和状态优化后端类似于[22]。建图系统可以分解为以下子组件：
#######a. 跟踪前端：
用本地特征(local feature approach)方法处理初始化、短期相机跟踪和特征轨迹生成。特征追踪用作状态优化模块的输入。
#######b. 状态优化后端
状态优化后端基于窗口束调整（windowed bundle adjustment，BA）框架，以同时确定运动轨迹和3D建图。
#######c. 多模态相机校准(Multi-Modal Camera Calibration)
校准模块基于LiDAR数据确定固有的相机参数和失真系数。
#######d. 回环检测和轨迹优化
基于来自配准框架(registration framework)的位姿信息，我们使用图优化结合BA框架来校正建图和相机轨迹。
拟议的方法如下：
（A）首先，我们预处理原始LiDAR点云数据以生成局部特征图（LiDAR特征DB）。这涉及多个地面和空中激光扫描的三维配准。基于该数据，生成一致的特征图。
（B）然后，该特征图使得能够基于外观(appearance)的单个相机图像的全局定位。这是通过首先从地图中选择特征子集，然后使用基于Ransac的2-D / 3-D PnP [11]求解器来记录相机图像来实现的。然后可选地通过使用基于强度的配准来细化配准。

（C）配准图(registered views)用作位姿图优化框架中的回环的附加约束，以校正系统的建图和运动。

2.1 特征图生成(A)

标准地面扫描仪在距离200米的情况下实现几毫米的测距精度。我们的数据集基于多个地面和一个航空LiDAR扫描。为了处理巨大数据集的可视化和特征生成，我们使用八叉树数据结构对数据进行下采样。在使用统计异常值过滤器去除小扫描伪像后，我们使用以下过程生成特征地图：

2.1.1 雷达扫描预处理

为了启用基于局部特征的位置识别系统，我们使用基于点的渲染从3D LiDAR数据生成合成强度图像。合成图基于反向散射激光脉冲的强度。我们在原始激光扫描仪位置周围生成合成图像。我们仅使用非常小的位移（例如1-2米）扫描仪位置来避免合成视图中的阴影区域。然而，我们密集地采样整个视图半球并使用大视场（例如，80度）以便有效地生成投影失真的图像块。
基于这些图像，我们使用Surf [1]或Sift [14]等局部图像描述符提取特征。还使用来自渲染图的特征检测器位置处的GPU深度缓冲信息来确定特征位置的3D坐标。然后将扫描仪位置周围的所有特征描述符L = {d1，d2，...，dm}合并在扫描仪位置L特征数据集中。然后我们计算KD树并对所有激光扫描仪位置重复此过程。

2.1.2 3-D雷达扫描配准

具有来自多个原始LiDAR数据集的特征图的查询图像的全局定位需要公共坐标系，因此需要配准局部激光扫描坐标系。我们选择中心LiDAR数据集的局部坐标系作为参考系。我们使用虚拟视图中提取的局部特征在扫描位置之间的渲染图中自动找到基于2-D / 2-D外观的对应关系。在对特征位置进行反投影之后，我们最终得到3-D / 3-D对应关系，用于估计刚性3D变换。基于对应关系，我们（RANSAC）通过使用Horns方法来求解连接局部激光扫描坐标系的最小二乘近似解来估计变换。对于基于机载和地面激光器的困难的初始外观匹配，我们从地面和航空数据集生成了纳迪尔视图。然后，我们使用最近提出的自相似性描述符[21]结合广义霍夫变换[2]来找到基于强度信息的2-D / 2-D对应关系。然后使用ICP进一步细化初始配准。

2.1.3 强度标准化（正则化？）

为了基于多个原始LiDAR数据集计算一致的特征描述符，必须考虑在不同位置，角度和距离处获得的变化的反向散射激光强度。因此，我们实现了基于能量平衡和朗伯反射模型的强度归一化[8,5]。在该模型中，接收能量I_r取决于透射能量I_t，物体表面距离R和入射角θ，其表示表面法线和激光束方向之间的倾斜角。使用局部体积单元的协方差矩阵（包括约30个点）计算表面角度。然后，最小特征值的特征向量用作表面法线的近似值（图2）。为此，我们使用以下近似模型方程：

这里C_t和C_r表示关于激光发射器和接收器特性的恒定项。这些数值是根据实验结果确定的。e^-2αR模拟大气衰减效应，而cos(θ)表示表面方向。有关LiDAR扫描强度归一化的更详细描述，请参考[5]。基于归一化强度图像，我们计算了基于视觉的建图模块的特征描述符（图2）。

2.2 基于外观的全局定位(Appearance Based Global Localization，B )

给定与来自扫描表面的3D信息相结合的局部特征图，我们现在能够使用基于Ransac的PnP求解器方法估计查询给定相机图像的6-DoF姿势。

2.2.1 Feature Set Selection

所提出的基于图像的位置识别系统中的重要步骤是参考扫描仪位置L = {d1，d2，...，dm}和相机查询图像Q来选择图像特征的子集。还对图像进行建模。作为一组iid 特征描述符Q = {d1，d2，...，dn}。通过简单的MAP方法实现选择，该方法关于在查询中发现的图像特征的分布以及在假设均匀激光扫描先验p(L)的情况下在扫描位置L周围合成生成的激光扫描图像。

m代表合成的激光扫描图像中的特征数量。由于高斯核，具有高描述符距离的描述符仅具有可忽略的影响。因此，我们用k近邻法(k = 2-4)个邻居近似密度。然而，这导致对实际概率密度的低估。尽管它很简单，但该方法非常有效，最重要的是它允许简单更新或添加新功能集。由于最近邻关系不对称，我们采用Li和Snavely [12]的思想，它建立了从大数据库特征集到小查询图像特征集的对应关系。例如，将来自LiDAR扫描的所有特征与图像的特征匹配的简单方法在计算上是不可行的（LiDAR特征集≥10⁷特征点）。我们的方法首先从查询图像中搜索合成视图的大特征集中的k个最近邻，然后将可能对应的特征匹配回图像特征集。我们还考虑了更大的k值（例如3-6），因为许多正确的对应关系不是最近的邻居到描述符距离。然而，这导致了具有挑战性的匹配过滤阶段。

2.2.2 基于强度的位姿细化(Intensity Based Pose Refinement)

为了实现位姿的高准确度配准，我们另外最大化渲染图和查询图像之间的基于强度的相似性度量。基于强度的多模2D / 3D方法的收敛范围通常非常小。基于局部特征的姿势计算通常提供足够接近的起点。一个重要的设计选择是选择适当的距离测量。互信息[26]被认为是多模态匹配的黄金标准相似性度量。它测量底层图像强度分布的相互依赖性：

基于强度的细化在计算上非常昂贵（每个图像大约15-25s）。为此，我们仅将该步骤用于联合确定外部和内部参数或失真系数。在这种情况下，我们联合配准多个帧（例如，5-10）并且在假设恒定的内部参数的情况下一次优化所有参数的相似性度量。

2.3 运动和结构优化（C）

SfM方法的最新进展导致了非常强大的算法，它充分利用了潜在问题的稀疏性结构[13,10]。像[9,22]这样的现代建图系统现在也使用SfM技术，与FASTSlam [23]等基于滤波器的现有解决方案形成对比。这些关键帧BA方法现在也可以在给定合理大小的关键帧集（例如，20-30帧）的现代“搁置”硬件上实时工作。

2.3.1 关键帧BA

BA技术[24]通常用于通过使用非线性最小二乘技术联合最小化多个图像帧的重投影误差来从图像数据同时确定3D场景结构和相机运动参数（SfM）。

2.3.2 相机轨迹优化

摄像机轨迹优化被视为位姿图优化问题[17,22]。该方法通过使用连续摄像机位置Ti和Tj之间的相对姿势约束来encodes摄像机轨迹优化：

作为外在相机参数的表示，我们采用刚体变换的最小编码SE(3):

直观地，优化过程通过在变换链中的多个变换上扩展位姿残差约束来校正相机参数。在最小化残差之后，将结构点映射回来，并且通过简单地将平移向量改变为st，将相似性变换转换回刚性变换。使用非线性最小二乘优化器即Levenberg-Marquardt进行优化。
然而，在实践中，我们不能指望配准的位姿T_reg对于给定的LiDAR数据集是绝对完美的。配准精度和不确定性在很大程度上取决于场景/视图结构以及特征对应的数量和分布。因此，我们仅将位姿优化的相机轨迹用作后续完整BA迭代的新起点。

3. 实验和结果

我们使用来自无人机系统的地面（720x576px）和低空航空视频流。使用MD4-200 Microdrones mini-UAV获得飞行器序列（1280×720px，68度视角）。

3.1 Evaluation Procedure

为了评估，我们将多个视频序列帧配准到共同的激光扫描坐标系，并通过目视检查仔细检查注册结果。我们还通过使用LiDAR扫描作为校准体来确定相机的固有参数。通过这种方式，我们确定了多个摄像机图像的地面实况投影矩阵（外部和内部参数）。这允许准确评估局部特征对应，因为我们现在已经了解了相机图像的基础场景几何。我们使用与[16]中描述的相同的评估程序，基于ROC曲线通过改变匹配阈值。真/假 - 阳性/阴性的自动确定基于3-D和2-D局部特征坐标（3.0px内部阈值）的重投影误差。通过这种方式，我们还确定了所有可能的正确对应关系，以确定召回值。

3.2 Multi Modal Correspondences

我们评估了关于变化的系统参数的多模态局部特征对应的性能，例如合成特征和特征图的数量。实验结果的一小部分如图3a-c所示。首先，我们测量了特征子集选择后查询图像的多模态对应性能。使用适当调整的系统参数，我们获得了23.4％和20％的平均召回和精确值，平均内部设置大小为50个正确的对应关系。这已经使基于特征的注册具有合理数量的Ransac迭代。但是，在多模态图像对的情况下，只有U-SURF描述符才能很好地工作。旋转不变特征描述符（见图3b）显示出明显更差的结果 - 这是可以理解的，因为不变性是以降低判别的代价来实现的。