[论文笔记]DynaSLAM

2019-07-11  本文已影响0人  liampayne_66d0

DynaSLAM:动态场景中的跟踪、建图和修复

DynaSLAM: Tracking, Mapping and Inpainting in Dynamic Scenes

摘要

场景刚性的假设在 SLAM 算法中很典型。这种强有力的假设限制了大多数视觉 SLAM 系统在人口稠密的现实世界环境中的使用,而这些环境是服务机器人或自主车辆等相关应用的目标。
在本文中,我们提出了 DynaSLAM,一个基于 ORB-SLAM2 [1] 的视觉 SLAM 系统,它增加了动态目标检测和背景修复的能力。DynaSLAM 在单目、立体和 RGB-D 配置的动态场景中非常强大。我们能够通过多视图几何、深度学习或两者来检测运动物体。拥有一个静态的场景地图,可以绘制被动态对象遮挡的框架背景。
我们在公共单目、立体和RGB-D数据集中对我们的系统进行了评估。我们研究了几种精度/速度权衡的影响,以评估所提议的方法的局限性。在高度动态的场景中,Dy naSLAM的精度优于标准的视觉SLAM基线。它还估计了场景静态部分的地图,这对于在现实环境中的长期应用来说是必须的。

I.Introduction

在visual SLAM中检测和处理动态对象有下面这些问题:

在本文中,本文提出了一种在线算法来处理RGB-D、双目和单目SLAM中的动态对象。这是通过在ORB-SLAM2系统添加一个前端来实现的,其目的是获得更精确的跟踪和场景的可重用映射。

II.相关工作

目前的可应用于动态环境中的SLAM方法大多无法应对下面两种情况:

III.系统描述

A.使用CNN对潜在动态内容进行分段

B. 低成本跟踪

C.基于Mask R-CNN和多视几何的动态物体分割

关键点用的ORB-SLAM中提取的关键点

重叠度最大通过考虑新帧和每个关键帧之间的距离和旋转来完成的
图3:关键帧(KF)的关键点x被投射到当前帧(CF)使用其深度和相机姿势,产生点x',深度为z'。然后计算投影深度z_{proj}。如果差值∆z = z_{proj} − z'大于阈值\tau_z,则将像素标记为动态。

图3

同时需要注意的是,在追踪和建图的过程中需要对由于掩膜出现,在边缘处检测出的异常ORB特征点进行去除。

图4

D.跟踪和建图

系统此阶段的输入包含RGB和深度图像,以及它们的分割mask。我们将图像片段中的ORB特征提取为静态。由于线段轮廓是高梯度区域,因此必须删除落在此交叉点中的关键点。

E.背景修复

图5

图5显示了从不同TUM基准序列中背景修复效果。

实验结果

将本文提出的系统和原始ORB-SLAM2进行比较,来验证本文方法在动态场景中的提升。作者在相应的序列数据上进行了10次测试,以避免不确定性效应。

A. TUM数据集

不同DynaSLAM的变体的测试效果

DynaSLAM (N)代表仅使用Mask RCNN进行动态物体分割; DynaS LAM (G)代表仅使用基于深度变化的多视几何进行动态检测和分割;DynaSLAM (N+G)代表同时利用多视几何和深度学习的方法进行检测;DynaSLAM (N+G+BI)代表在背景修复之后进行跟踪和建图的操作(这时是基于真实影像和重建影像完成ORB特征提取)。从表中可以发现使用DynaSLAM(N+G)的精度是最高的,DynaSLAM (G) 由于在经过一定的延迟之后运动估计和实例分割才会准确这一方法特性,使得最后的精度较差。DynaSLAM (N+G+BI)由于使用了重建之后的影像进行跟踪,而相机姿态会对重建影像有较大影响,因此这样的效果比较差。


DynaSLAM和ORB-SLAM2误差对比对比

作者还将DynaSLAM(N+G)中RGB-D分支与RGB-D ORB-SLAM2进行了对比。可以发现在高动态场景walking中,本文的方法优于ORB-SLAM2,并且误差与RGB-D ORB-SLAM2在静态场景中的误差相近。而在低动态场景setting中,要稍微差一些。


DynaSLAM和ORB-SLAM2估计轨迹

B. KITTI数据集

在KITTI数据集上中进行测试发现,DynaSLAM以及ORB-SLAM在有些场景下的结果是相近的。当不在具有先验动态信息的物体上提取特征时,跟踪精度会比较高,诸如汽车,自行车等(KITTI01\KITTI04);当在大多数车辆都是停止状态时,DynaSLAM的误差会大一些,因为将这些物体对象去掉之后检测到的特征点会处于较远或纹理较弱的区域,从而导致跟踪精度下降(KITTI00\KITTI02\KITTI06)。但是在回环检测和重定位处理中结果较为稳健,因为构建的地图中仅仅包含结构性物体对象,没有动态物体。而如何设计更好的特征区分标准,使得具有移动性的物体在未移动时,其对应的关键点可以被用于跟踪却不会在最终的结果地图中出现这一问题需要进行更加深入的研究。


表5、6 双目条件下DynaSLAM和ORB-SLAM之间的比较以及单目下DynaSLAM和ORB-SLAM之间的比较结果

C. 时间分析

作者还提到所做的实验中并没有对算法进行工程优化,因此时间上的开销会比较大,如下表:


DynaSLAM不同阶段的平均计算时间

总结

我们提出了一个基于ORB-SLAM的视觉SLAM系统,它增加了一种运动分割方法,使其在单眼,立体和RGB-D相机的动态环境中具有强大的稳健性。我们的系统可以精确地跟踪摄像机并创建静态且因此可重复使用的场景地图。在RGB-D情况下,DynaSLAM能够获得没有动态内容并且具有被遮挡的背景的合成RGB帧,以及它们相应的合成深度帧,这些帧可能对虚拟现实应用非常有用。我们提供了一个显示DynaSLAM 2潜力的视频。与现有技术的比较表明,DynaSLAM在大多数情况下实现了最高的准确度。

在TUM动态对象数据集中,DynaSLAM是目前最好的RGB-D SLAM解决方案。在单眼情况下,我们的精度类似于ORB-SLAM的精度,但是通过较早的初始化获得场景的静态映射。在KITTI数据集SLAM中,除了动态对象表示场景的重要部分的情况外,其精度略低于单目和立体的ORB-SLAM。然而,我们估计的映射只包含结构对象,因此可以在长期应用程序中重用。这项工作的未来扩展可能包括其他方面的实时性能。一种基于RGB的运动检测器,或通过使用更精细的修复技术(如Pathak等人使用GANs绘制的[24]帧)使合成的RGB帧具有更真实的外观。

上一篇下一篇

猜你喜欢

热点阅读