cv paper reading

【Paper Reading】Learning Human-Ob

2021-03-17  本文已影响0人  Joyner2018

标题

Learning Human-Object Interaction Detection using Interaction Points

作者

Tiancai Wang, Tong Yang, Martin Danelljan, Fahad Shahbaz Khan, Xiangyu Zhang, Jian Sun

单位

MEGVII Technology
ETH Zurich, Switzerland
IIAI, UAE
Linkoping University, Sweden

出版单位

IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition)

论文下载地址

https://arxiv.org/pdf/2003.14023.pdf

代码开源地址

https://github.com/vaesl/IP-Net

数据集

HICO-det dataset
V-COCO dataset
V-COCO paper

摘要

相关工作

在现有的人物交互(HOI)检测方法中,Visual semantic role labeling的工作是第一个探索视觉语义角色标记问题的方法。 该问题的目的是定位人和物体以及检测它们之间的交互。 Detecting and recognizing human-object intaractions的工作引入了一种以人为中心的方法,称为InteractNet,该方法扩展了Faster R-CNN框架,并带有一个附加分支,以了解目标位置上特定于交互作用的密度图。Learning human-object interactions by graph parsing neural networks提出利用图卷积神经网络,并将HOI任务视为图结构优化问题。 Learning to detect human-object interactions建立了一个基于人对目标区域和成对交互分支的多流网络。 该多流架构的输入是来自预训练检测器(例如,FPN )和原始图像的预测边界框。 在这种多流体系结构中,人流和物体流基于从骨干网提取的外观特征,以生成关于检测到的人和物体边界框的置信度预测。另一方面,成对流通过将两个框(人和物体)结合起来,简单地编码人与物体之间的空间关系。以后的工作通过例如引入以实例为中心的注意力[iCAN: Instance-centric attention network for human-object interaction detection],姿势信息[Transferable interactiveness knowledge for human-object interaction detection]和基于上下文感知的外观特征的深层上下文注意力[Deep contextual attention for human-object interaction detection],扩展了上述多流体系结构。
传统方法计算昂贵,且仅根据外观特征和粗糙的空间信息不足以捕获复杂的交互作用。

总体结构

分为3个部分,特征提取部分、交互生成部分(生成交互点、交互向量)、交互分组部分(根据预测框,交互点,交互向量得到最终结果)。
Backone网络使用的是Hourglass网络(ECCV2016的工作),使用Faster RCNN + ResNet50-FPN获得预测框。

Hourglass网络输出的特征图大小为 其中H,W是输入图像的高度和宽度,S是步幅,D是输出通道(S设置为4)。交互点定义为人-物对的中心点,且是交互向量的起点。最终,交互点和交互向量联合已检测的人、物检测框输入至交互匹配模块,得到最终的HOI三元组(人,动作,物体)预测。
本文HOI检测框架示意图,包含一个定位和交互预测阶段

交互生成

例图像中交互点和交互向量的图示

交互生成模块包含两个并行的分支:交互点分支和交互向量分支。两个分支均以提取自backbone的特征作为输入。

交互点分支

输入提取的特征,用单个3*3卷积,生成大小为

的交互点热图。C表示交互种类的数量。
训练时,交互点由人和物中心点生成的GT高斯热图监督,推理时采用高斯热图的峰值的top-k个点(cornernet中的方式)。
不同于目标检测的一个点只能代表一个物体,本文一个点可以为多个交互类别(人同时与多个物体交互)。
注意,在anchor-free物体检测框架中,单个关键点只能表示一个物体类别。不同于物体检测,在HOI检测中,单一关键点定位可以对应多个交互类别,因为给定一个物体,人可以与之有多个交互关系。这里的交互点是针对有对应物体的交互类别所定义的,对于没有对应物体的交互类别,比如「走路」、「微笑」等,则直接定义人的中心点为交互点。

交互向量分支

交互向量分支预测指向人类中心点的交互向量
交互点的定义:
交互向量的定义:
输入提取的特征,使用单个3*3卷积生成无符号交互向量图V,大小为

两个值,一个作用于水平方向,一个作用于垂直方向。

推理时,根据下式,生成4个人类中心的可能位置:

交互分组

满足

条件的分为一组。

分组策略:
图中,四个绿色点由 计算出;紫色的四个点由人/物框确定;然后基于这八个点计算向量长度。

然后以上的值满足下式则为正例:
d_t为过滤时的阈值。
算法表示:

训练

预测交互点的loss采用和anchor-free检测器一样的改动的focal loss:



N_p 是图中的交互点数量。

对于交互向量预测,使用在交互点P_k上的无符号交互向量的值
作为GT。这部分使用的是L1 loss:

V_pk是在点P_k预测的交互向量。
总的损失函数:



λ_v设置为0.1.

和SOTA(state-of-the-art)实验对比

检测分支在COCO上预训练,使用人的预测框置信度大于0.4,物体的预测框置信度大于0.1,设置的低是因为分组可以过滤掉大量的负例。

IPnet在V-COCO上的效果


V-COCO数据集上的对比结果(mAP_role)

IPnet在HICO-det的效果,最后一行表示在HICO-DET上预训练,再在V-COCO上微调,测试。


HICO-DET数据集上的对比结果(mAP_role)

消融实验(ablation study)分析

image
Angle-filter: 交互点p与人体中心点H和物体中心点O具有固定结构。过滤掉在向量PH和PO之间的小于阈值的HOI对。
Dist-ratio-filter: 在训练时,PH和PO的比例设置为1,过滤掉比例在max(PH,PO)和min(PH,PO)之间的HOI对。
交互分组策略分为两部分,interaction-boxcorner-dist,来验证三个软约束 image 的效果。
interaction-box和corner-dist分别是前两个式子和最后一个式子。
发现仅仅interaction-box + interaction points就获得了巨大提升。再加上corner-dist也获得了挺大的提升。

Center pool
centernet中的中心池化,在交互点和交互向量之前使用,略有改善性能。

image
稀有类和非稀有类的交互合适的分数阈值应该是不同的,因为稀有类样本较少,所以分数一般较低。因此动态阈值获得了不错的效果。

局限

参考文献

[1] Yuwei Chao, Yunfan Liu, Xieyang Liu, Huayi Zeng, and Jia Deng. Learning to detect human-object interactions. InWACV, 2018.
[2] Chen Gao, Yuliang Zou, and Jia-Bin Huang. iCAN: Instance-centric attention network for human-object interac- tion detection. In BMVC, 2018.
[3] Yong-Lu Li, Siyuan Zhou, Xijie Huang, Liang Xu, Ze Ma, Yan-Feng Wang Hao-Shu Fang, and Cewu Lu. Transferable interactiveness knowledge for human-object interaction de- tection. In CVPR, 2019.
[4] Tianfei Zhou, Wenguan Wang, Siyuan Qi, Jianbing Shen,and Haibin Ling. Cascaded human-object interaction recog-nition. In CVPR, 2020.
[5] Julia Peyre, Ivan Laptev, Cordelia Schmid, and Josef Sivic. Detecting unseen visual relations using analogies. In ICCV, 2019.
[6] Tiancai Wang, Rao Muhammad Anwer, Muhammad Haris Khan, Fahad Shahbaz Khan, Yanwei Pang, and Ling Shao. Deep contextual attention for human-object interaction de- tection. In ICCV, 2019.
[7] Saurabh Gupta and Jitendra Malik. Visual semantic role la- beling. arXiv preprint arXiv:1505.04474, 2015.
[8] YuweiChao,ZhanWang,YugengHe,JiaxuanWang,andJia Deng. HICO: A benchmark for recognizing human-object interactions in images. In ICCV, 2015.

上一篇下一篇

猜你喜欢

热点阅读