【Paper Reading】Learning Human-Ob
标题
Learning Human-Object Interaction Detection using Interaction Points
作者
Tiancai Wang, Tong Yang, Martin Danelljan, Fahad Shahbaz Khan, Xiangyu Zhang, Jian Sun
单位
MEGVII Technology
ETH Zurich, Switzerland
IIAI, UAE
Linkoping University, Sweden
出版单位
IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition)
论文下载地址
https://arxiv.org/pdf/2003.14023.pdf
代码开源地址
https://github.com/vaesl/IP-Net
数据集
HICO-det dataset
V-COCO dataset
V-COCO paper
摘要
- 对图像内容超越实例层面的语义理解,已成为计算机视觉领域基本问题之一。人-物交互(HOI)检测属于视觉关系检测的一种,该任务不仅定位图像中的人和物体,还需要推理出人和物体之间的交互关系,比如[人吃苹果]、[人驾驶汽车]等。
- 理解人与物体之间的相互作用是视觉分类的基本问题之一,也是实现详细场景理解的重要步骤。人与物体之间的交互(HOI)检测力求既定位人与物体,又确定它们之间的复杂交互。
- 由于一张图像可能包含多个人做同一类交互,一个人同时交互多个物体、多个人共享同一个交互物体,还可能存在细粒度交互的情况,导致HOI检测颇具挑战性。这些复杂而多元的交互场景给HOI检测方案的设计带来了巨大困难。
-
大多数现有方法以三元组(人,动作,物体)的形式检测人-物交互,并将该问题分解成两部分:物体检测和交互识别。物体检测方面,通过一个预训练的物体检测器检测出人和物体;对于交互识别,相关文献提出了若干个策略。
图1 大多数现有方法(a)与本文方法(b)示意图对比 - 现有大多数HOI检测方法使用多支路架构(见图1(a))识别交互关系。多支路架构通常包含三个独立的支路:人体支路、物体支路和配对支路。人体和物体支路分别编码人和物的外观特征,而配对支路旨在编码人和物的空间关系。接着,三个支路各自的得分进行融合,用于交互识别。
- 尽管提高了HOI检测性能,基于上述多支路架构的当前最佳方法是计算昂贵的。训练时,这些以实例为中心的方法需要配对所有的人和物体,来学习正/负人-物对。这意味着推理时间会随着人-物实例数量呈二次方增长,因为所有的人-物对都需要经过一遍网络,以获得最后的交互得分。
- 除了计算昂贵之外,这些方法还明显依赖于外观特征和一个简单的配对支路,其中配对支路是把两个框(人和物)结合起来组成一个二值图像表征来编码空间关系。本文认为,仅仅依赖于表面特征和粗糙的空间信息不足以应对复杂的交互场景,往往会造成不准确的预测。
- 作者认为,仅外观特征不足以捕获复杂的人与物体的相互作用。因此,在本文中,作者提出了一种新颖的全卷积方法,该方法直接检测人与物体之间的交互作用。 提出的网络会预测交互点,这些交互点可以直接对交互进行定位和分类。与密集预测的交互向量配对,这些交互与人类和物体检测相关联以获得最终预测。
- 本文提出了一个全新的方法用于HOI检测。受最近anchor-free物体检测算法的启发,本文提出把HOI检测看作关键点检测和分组问题(见图1(b))。该方法直接把人-物对之间的交互检测为一系列交互点,并基于这些交互点学习出指向人和物体中心点的交互向量。
- 本文进一步提出交互匹配方案,对交互点、交互向量和物体检测分支产生的人和物体检测框进行匹配,从而获得最后的交互预测。在两个HOI检测数据集(V-COCO和HICO-DET)上的大量实验表明,该方法大幅超越现有的以实例为中心的方法,取得当前最佳结果。
相关工作
在现有的人物交互(HOI)检测方法中,Visual semantic role labeling的工作是第一个探索视觉语义角色标记问题的方法。 该问题的目的是定位人和物体以及检测它们之间的交互。 Detecting and recognizing human-object intaractions的工作引入了一种以人为中心的方法,称为InteractNet,该方法扩展了Faster R-CNN框架,并带有一个附加分支,以了解目标位置上特定于交互作用的密度图。Learning human-object interactions by graph parsing neural networks提出利用图卷积神经网络,并将HOI任务视为图结构优化问题。 Learning to detect human-object interactions建立了一个基于人对目标区域和成对交互分支的多流网络。 该多流架构的输入是来自预训练检测器(例如,FPN )和原始图像的预测边界框。 在这种多流体系结构中,人流和物体流基于从骨干网提取的外观特征,以生成关于检测到的人和物体边界框的置信度预测。另一方面,成对流通过将两个框(人和物体)结合起来,简单地编码人与物体之间的空间关系。以后的工作通过例如引入以实例为中心的注意力[iCAN: Instance-centric attention network for human-object interaction detection],姿势信息[Transferable interactiveness knowledge for human-object interaction detection]和基于上下文感知的外观特征的深层上下文注意力[Deep contextual attention for human-object interaction detection],扩展了上述多流体系结构。
传统方法计算昂贵,且仅根据外观特征和粗糙的空间信息不足以捕获复杂的交互作用。
总体结构
分为3个部分,特征提取部分、交互生成部分(生成交互点、交互向量)、交互分组部分(根据预测框,交互点,交互向量得到最终结果)。
Hourglass网络输出的特征图大小为 其中H,W是输入图像的高度和宽度,S是步幅,D是输出通道(S设置为4)。交互点定义为人-物对的中心点,且是交互向量的起点。最终,交互点和交互向量联合已检测的人、物检测框输入至交互匹配模块,得到最终的HOI三元组(人,动作,物体)预测。
Backone网络使用的是Hourglass网络(ECCV2016的工作),使用Faster RCNN + ResNet50-FPN获得预测框。
本文HOI检测框架示意图,包含一个定位和交互预测阶段
交互生成
例图像中交互点和交互向量的图示交互生成模块包含两个并行的分支:交互点分支和交互向量分支。两个分支均以提取自backbone的特征作为输入。
交互点分支
输入提取的特征,用单个3*3卷积,生成大小为的交互点热图。C表示交互种类的数量。
训练时,交互点由人和物中心点生成的GT高斯热图监督,推理时采用高斯热图的峰值的top-k个点(cornernet中的方式)。
不同于目标检测的一个点只能代表一个物体,本文一个点可以为多个交互类别(人同时与多个物体交互)。
注意,在anchor-free物体检测框架中,单个关键点只能表示一个物体类别。不同于物体检测,在HOI检测中,单一关键点定位可以对应多个交互类别,因为给定一个物体,人可以与之有多个交互关系。这里的交互点是针对有对应物体的交互类别所定义的,对于没有对应物体的交互类别,比如「走路」、「微笑」等,则直接定义人的中心点为交互点。
交互向量分支
交互向量分支预测指向人类中心点的交互向量
交互点的定义:
交互向量的定义:
输入提取的特征,使用单个3*3卷积生成无符号交互向量图V,大小为两个值,一个作用于水平方向,一个作用于垂直方向。
推理时,根据下式,生成4个人类中心的可能位置:
交互分组
满足条件的分为一组。
分组策略:
图中,四个绿色点由 计算出;紫色的四个点由人/物框确定;然后基于这八个点计算向量长度。
然后以上的值满足下式则为正例:
d_t为过滤时的阈值。
算法表示:
训练
预测交互点的loss采用和anchor-free检测器一样的改动的focal loss:
N_p 是图中的交互点数量。
对于交互向量预测,使用在交互点P_k上的无符号交互向量的值
作为GT。这部分使用的是L1 loss:
V_pk是在点P_k预测的交互向量。
总的损失函数:
λ_v设置为0.1.
和SOTA(state-of-the-art)实验对比
检测分支在COCO上预训练,使用人的预测框置信度大于0.4,物体的预测框置信度大于0.1,设置的低是因为分组可以过滤掉大量的负例。
IPnet在V-COCO上的效果
V-COCO数据集上的对比结果(mAP_role)
IPnet在HICO-det的效果,最后一行表示在HICO-DET上预训练,再在V-COCO上微调,测试。
HICO-DET数据集上的对比结果(mAP_role)
消融实验(ablation study)分析
image
Angle-filter: 交互点p与人体中心点H和物体中心点O具有固定结构。过滤掉在向量PH和PO之间的小于阈值的HOI对。
Dist-ratio-filter: 在训练时,PH和PO的比例设置为1,过滤掉比例在max(PH,PO)和min(PH,PO)之间的HOI对。
交互分组策略分为两部分,interaction-box和corner-dist,来验证三个软约束 image 的效果。
interaction-box和corner-dist分别是前两个式子和最后一个式子。
发现仅仅interaction-box + interaction points就获得了巨大提升。再加上corner-dist也获得了挺大的提升。
Center pool
image
centernet中的中心池化,在交互点和交互向量之前使用,略有改善性能。
稀有类和非稀有类的交互合适的分数阈值应该是不同的,因为稀有类样本较少,所以分数一般较低。因此动态阈值获得了不错的效果。
局限
- 长尾类对于人物交互检测具有较大挑战。
- 多个HOI对不能共享相同的交互点,但这种情况很少见。
参考文献
[1] Yuwei Chao, Yunfan Liu, Xieyang Liu, Huayi Zeng, and Jia Deng. Learning to detect human-object interactions. InWACV, 2018.
[2] Chen Gao, Yuliang Zou, and Jia-Bin Huang. iCAN: Instance-centric attention network for human-object interac- tion detection. In BMVC, 2018.
[3] Yong-Lu Li, Siyuan Zhou, Xijie Huang, Liang Xu, Ze Ma, Yan-Feng Wang Hao-Shu Fang, and Cewu Lu. Transferable interactiveness knowledge for human-object interaction de- tection. In CVPR, 2019.
[4] Tianfei Zhou, Wenguan Wang, Siyuan Qi, Jianbing Shen,and Haibin Ling. Cascaded human-object interaction recog-nition. In CVPR, 2020.
[5] Julia Peyre, Ivan Laptev, Cordelia Schmid, and Josef Sivic. Detecting unseen visual relations using analogies. In ICCV, 2019.
[6] Tiancai Wang, Rao Muhammad Anwer, Muhammad Haris Khan, Fahad Shahbaz Khan, Yanwei Pang, and Ling Shao. Deep contextual attention for human-object interaction de- tection. In ICCV, 2019.
[7] Saurabh Gupta and Jitendra Malik. Visual semantic role la- beling. arXiv preprint arXiv:1505.04474, 2015.
[8] YuweiChao,ZhanWang,YugengHe,JiaxuanWang,andJia Deng. HICO: A benchmark for recognizing human-object interactions in images. In ICCV, 2015.