亮风台AR跟踪算法被IEEE人工智能顶级期刊《PAMI》收录
本文将介绍基于图的平面物体跟踪算法(Gracker),由亮风台首席科学家凌海滨带领团队共同研发,已经被人工智能领域的国际顶级期刊《PAMI》(IEEE模式分析和机器智能汇刊)录用,即将于2018年正式刊出。
该算法可在强干扰的场景下实现快速且准确的平面跟踪。经过测试,在两个国际知名的测评集TMT和UCSB上,该算法均超越了国际上已经发表的算法结果,展现出了强大的跟踪能力。
下面部分内容来自论文原文,由亮风台官方编译完成。
关键词:视觉跟踪、关键点、图匹配、姿态估计。
基于平面图的视觉跟踪,简称平面跟踪,一直是增强现实(AR)的核心技术之一。尽管近年来平面跟踪已经有了非常大的进展,并广泛应用于AR实际案例中,但是如何在强干扰场景下提高平面跟踪的精度仍然充满挑战。例如在识别图的缩放程度、倾斜程度、平移和旋转、遮挡和光线、运动模糊和复合运动变换等外界条件影响下,AR的跟踪识别可能会出现不同程度的丢失或延迟。诸多权威的AR SDK测评报告、以及AR开发者们会优先考虑并推荐强干扰条件下可以保持良好效果的算法。
近期,关注AR底层技术的亮风台在这一问题上取得了重要的进展,首次提出将图模型和图匹配机制运用于平面物体跟踪,首先通过图匹配的方式,对图片中的上下文信息进行自动建模;然后利用这些信息,有效地提高跟踪算法对于背景干扰的鲁棒性。该研究成果已经被人工智能领域的国际顶级期刊《PAMI》(IEEE模式分析和机器智能汇刊)录用,即将于2018年正式刊出。
该成果的主要贡献概括如下:
首次提出将图模型和图匹配机制运用于平面物体跟踪。
设计了一种能预测物体姿态和关键点匹配的新策略,并把这种策略集成到最优解寻找的问题中。
设计了一个带有标注的真实场景数据库,这个数据库可以用来评估快速移动下的视觉跟踪。
基于图的跟踪算法:Gracker
基于图的跟踪算法Gracker能够充分利用物体的结构信息来提高跟踪性能。为了表示物体的结构,我们将平面物体建模为一个图而不是简单的关键点集合。如此,将跟踪问题转化为图匹配问题,利用几何图匹配算法建立关键点的对应关系。
具体地说,我们用图对平面物体建模,图的顶点由可靠的自动选择机制生成而不是传统的基于HoG的检测子。这种机制使得图结构更加稳定,因此本方法对极端环境变量具有鲁棒性,例如极端照度条件和运动模糊。
除此之外,我们把特征对应和姿态估计集成在一个统一的几何图匹配框架中。几何图中的二元限制条件能够对全局几何关系编码,这样Gracker算法对各种几何和光学变换更具有鲁棒性和精确性。
如何构造图
将目标表示为无向图,而不是一堆局部部件或者星形模型。给定目标图GM和候选图GC,我们的目标是找到他们之间的最优对应关系,然后根据对应结果决定最优的目标状态。可以按如下方式构造目标物体的模型图:
-
生成顶点:我们提取每一帧的关键点来表示局部部分,然后建模为图的顶点。经典算法是通过搜寻不同缩放尺寸的DoG图像的局部最小/最大值来获得关键点,比如SIFT。然而关键点的数量会随着检测子和帧背景的变化而变化。另外,SIFT容易受到不同环境变化影响,例如:照度变化和运动模糊,这不利于跟踪精度。我们采用更鲁棒的方法提取关键点:首先对每个像素R计算SIFT响应,随后我们将R等分为N个网格,从每个网格中取最大的SIFT响应作为这个网格的关键点,将所选取的关键点建模为图的节点,然后计算它们的描述子作为这个节点的属性。
-
生成边:现存几种普遍的边生存方法,比如邻域图,K最近邻图和全连通图。全连通图包含了大量的结构信息,但是它占用太多存储空间和计算时间,因此并不适用于实时应用。邻域图依赖于参数的选取,而且受到物体缩放问题的影响。我们使用狄洛尼三角剖分构建图的边,因为它具有平移、缩放和旋转不变性。
对每一个输入帧,我们用同样方式构造一个候选图Gt,然后将匹配问题表达为图匹配问题。
图匹配
给定规模为N的模型图和候选图,匹配问题可以视为寻找GM和Gt顶点的对应关系。一般的图匹配问题中,两个顶点集间的变换通常不被考虑,因为缺乏先验知识。而对于物体跟踪,我们可以利用先前帧的变换信息引导匹配。我们提出了一种几何图匹配(GGM)框架将变换线索融入图匹配。传统的基于匹配的跟踪方法将特征匹配和变换估计区分计算,GMM方法的不同在于将特征匹配和变换估计结合成一个统一的框架。
Gracker算法效果
为了系统地评估算法,我们采用了两个常用的基准数据库,UCSB[1]和TMT[2],和一个我们收集的快速运动数据库。下面我们比较了Gracker和其他三个基准算法Struck[3], IC[4], ESM[5]在两个基准数据库和我们收集的数据库上的结果。
缩放:下图是弱纹理的落日图片。可以看到IC和Struck算法出现目标丢失情况,而ESM和Gracker算法给出更精确的结果。
倾斜:下图书本倾斜的例子揭示了IC,ESM和Gracker算法对倾斜具有鲁棒性,而当物体处于极端倾斜的情况下,Struck算法未能捕捉到对象物体。
平移和旋转:所有的算法都能处理小角度旋转,但是大角度情况下,只有ESM和Gracker比较鲁棒。在360帧之后由于运动模糊,ESM算法变得不精确,而Gracker算法在所有帧中更稳定。
遮挡和光线:下图给出了几种算法在正常和黑暗的光照条件下的部分遮挡的实验结果。基于模板的算法如IC和ESM受到部分遮挡的影响。相反,基于匹配的算法Struck和Gracker对部分遮挡更鲁棒。在黑暗光照条件下,Struck算法精度相对较低,因为其使用的基于HoG的检测子在黑暗光照条件下检测到的关键点不可靠。而我们提出的Gracker算法在光线变化的情况下更鲁棒。
运动模糊:IC和Struck算法对运动模糊很敏感,所以从很早开始直到视频结束都丢失了目标。ESM算法基本上在每一帧里面都捕捉到了对象物体,但是捕捉到的位置并不准确。相反,我们提出的Gracker在所有的帧里都给出了更加准确的结果。
复合运动变换:下图显示了集平移,旋转,倾斜和轻微的非线性变换的复合变换。从比较中我们可以看到,我们的Gracker算法给出了最好的跟踪结果。
[1] S. Gauglitz, T. Hollerer, and M. Turk. Evaluation of interest point detectors and feature descriptors for visual tracking. IJCV, 94(3):335– 360, 2011.
[2] A. Roy, X. Zhang, N. Wolleb, C. P. Quintero, and M. J¨agersand. Tracking benchmark and evaluation for manipulation tasks. In ICRA, pages 2448– 2453, 2015.
[3] S. Hare, A. Saffari, and P. H. S. Torr. Efficient online structured output learning for keypoing-based object tracking. In CVPR, pages 1894–1901, 2012.
[4] S. Baker and lain A. Matthews. Lucas-kanade 20 years on: A unifying framework. IJCV, 56(3):221–255, 2004.
[5] E. Malis. Improving vision-based control using efficient second-order minimization techniques. In ICRA, pages 1843–1848, 2004.
这项工作的发表,再次体现了亮风台在AR领域的理论深耕和探索,希望可以对该AR核心问题的发展产生重要影响。