IGFormer: Interaction Graph Tran

2022-09-15 本文已影响0人魔法少女玛格姬

摘要

人机交互识别在许多应用中都非常重要。识别交互的一个关键线索是交互的身体部位。在这项工作中，我们提出了一种新颖的交互图变换器（IGFormer）网络，通过将交互身体部位建模为图形来进行基于骨架的交互识别。更具体地说，所提出的 IGFormer 根据交互身体部位之间的语义和距离相关性构建交互图，并通过基于学习图聚合交互身体部位的信息来增强每个人的表示。此外，我们提出了一个语义分区模块，将每个人体骨骼序列转换为一个 Body-Part-Time 序列，以更好地捕获骨骼序列的空间和时间信息，用于学习图形。在三个基准数据集上进行的大量实验表明，我们的模型以显着的优势优于最先进的模型。

介绍

人机交互识别在广泛的应用中发挥着重要作用[1,26,36,31]。例如，它可用于视觉监控，以检测“踢”和“拳”等危险事件。它还可以用于机器人控制，以实现人机交互。本文解决了来自骨架序列的人类交互识别[28,15]。与 RGB 视频相比，骨架序列仅提供人体关节的 3D 坐标，这对于非常规和可变条件（例如不寻常的视点和杂乱的背景）更加稳健。

与单人动作识别相比，识别人类交互的另一个关键线索是交互人员的交互身体部位。例如，两个人的交互手对于理解“握手”交互至关重要。通常，交互中的交互身体部位表现出语义相关性和对应性。例如，在图1（a）所示的“拍照”交互中，一个人拿着相机的手和另一个人拿着“是”的手表现出很强的相关性。类似地，在图1(b)所示的“握手”中，两个人的交互手彼此对应。在这些情况下，探索交互身体部位之间的语义相关性对于交互理解至关重要。此外，对于某些交互，交互的身体部位展示了距离演变。例如，当两个人“握手”时，两个人的手逐渐靠近。测量交互人员身体部位之间的距离可以为语义相关性提供额外的有用信息，以更好地识别交互。

受上述观察和Transformer在许多领域的成功应用的启发[4,5,41,37]，我们提出了一种基于Transformer的新型模型，名为Interaction Graph Transformer (IGFormer)，用于从骨架序列中进行交互识别。特别是，所提出的 IGFormer 包含一个图形交互多头自我注意 (GI-MSA) 模块，该模块旨在从语义和距离级别对交互人员的关系进行建模以识别动作。更具体地说，GI-MSA 模块学习基于语义的图和基于距离的交互图来表示交互人员的身体部位之间的相互关系。基于语义的图由注意力机制以数据驱动的方式学习，以捕获交互身体部位的语义相关性。基于距离的图是通过测量身体部位对之间的距离来挖掘交互身体部位之间的距离信息来构建的。将两个交互图组合在一起，以一种细化的方式相互补充，使模型适用于对不同的交互进行建模。
为了向 IGFormer 提供骨架序列，一个直接的解决方案是将每个骨架序列转换为伪图像，并将图像划分为一系列补丁，类似于 ViT [5] 的方式。然而，这可能会破坏每个身体部位骨骼关节之间的空间关系，从而阻碍对交互身体部位进行有效建模以进行交互识别。为了解决这个问题，我们提出了一个语义分区模块（SPM），将每个主体的骨架序列转换为一种新的格式，即身体-部分-时间（BPT）序列，每个序列都是一个身体部分的表示在短时间内。 BPT 序列对身体部位的语义信息和时间动态进行编码，增强了网络对交互身体部位进行建模以进行交互识别的能力。

我们将本文的贡献总结如下：

我们引入了一个名为 IGFormer 的基于 Transformer 的模型，其中包含一个新的 GI-MSA 模块，用于从语义和距离级别学习交互人员的关系，以进行基于骨架的人类交互识别。
我们引入了语义分区模块 (SPM)，将每个骨架序列转换为 BPT 序列，以增强交互式身体部位的建模。
我们对三个具有挑战性的数据集进行了广泛的实验，并实现了最先进的性能。

Figure 1: 左图拍照，右图握手，分别显示了语义相关性和距离相关性的作用

Interaction Graph Transformer （TO BE DONE）

识别人类互动的一个重要线索是互动的身体部位。在本节中，我们介绍了一个交互图转换器（IG-Former），它包含一个图交互多头自注意力（GI-MSA）模块，用于在语义和距离级别对基于骨架的交互的交互身体部位进行建模认出。提出的 IGFormer 还配备了语义分区模块 (SPM)，旨在保留输入骨架序列中每个身体部位的语义和时间信息，以便更好地学习交互式身体部位。
所提出的 IGFormer 的整体架构如图 2 (a) 所示。给定两个交互对象Sm的骨骼序列，Sn RT ×J×C ，其中T和J分别表示每帧的帧数和关节数，C = 3表示每个关节3D坐标的维度，我们首先将两个骨架输入到所提出的 SPM 中，以生成两个 Body-Part-Time (BPT) 序列 Hm、Hn，然后将其输入到交互变换器块 (ITB) 堆栈中进行交互建模。最后，将一个全局平均池化和一个 softmax 分类器应用于最后一个 ITB 的输出以预测交互类别。
更具体地说，每个 ITB 包含三个组件，包括两个共享权重自编码 (SE) 模块、图形交互多头自注意力 (GI-MSA) 模块和两个前馈网络 (FFN)。每个 SE 模块都是一个标准的单层 Transformer [5]，旨在对每个单独骨架内的身体部位之间的交互进行建模。 SE 的两个输出被馈送到 GI-MSA 以对交互的身体部位进行建模，并为每个交互的人生成增强的表示。最后，GI-MSA 的每个输出都被馈送到层归一化（LN），然后是 FFN。我们在 GI-MSA 和 FFN 的输出之间添加了一个加法运算，以提高模型的表示能力。 ITB 可以表述如下：

其中 Hme 和 Hne 表示 SE 的输出，H^me 和 H^ne 表示 GI-MSA 模块的输出，H^mo 和 H^no 是 ITB 的输出。
第一个 ITB 中的两个 SE 模块将两个交互式主题（即 Hm 和 Hn）的 Body-Part-Time (BPT) 表示作为输入。下一个 ITB 中 SE 的输入是前一个 ITB 的输出。在以下小节中，我们将详细介绍提议的 SPM 和 GI-MSA。

Figure.2：模型整体架构

Semantic Partition Module

与可以直接分成补丁序列以馈送到 Transformer [5] 的自然 2D 图像不同，人体骨骼序列表示为一组 3D 关节。将 3D 骨架序列转换为 2D 伪图像并通过视觉转换器（如 ViT [5]）可能会导致失去帧之间的时间依赖性以及关节之间的相关性。为了更好地保留骨架序列的空间和时间信息，我们提出 SPM 将每个主体的骨架序列转换为 BPT 序列。 BPT 中的每个元素都是一个身体部位在短时间内的表示。所提出的 SPM 的整体架构如图 3 所示。SPM 中有三个主要步骤，即分区、调整大小和投影，下面将对此进行解释。

分区。给定交互人物 Sm, Sn 的骨架序列
RT ×J×C ，我们首先将每个骨架序列划分为 B=5 个身体部位，即左
手臂，右臂，左腿，右腿和躯干，根据人体的自然结构。在划分操作之后，每个主体的每个身体部位表示为 Sm,p, Sn,p RT ×Jp×C ，其中 p B 和 Jp 是
身体部位的关节数 p。
调整大小。不同的身体部位可能有不同数量的关节。为了使这些身体部位适应 Transformer 的输入，我们采用线性插值将所有身体部位的空间维度 Jp 调整为相同
尺寸 P ，即 Sm,p, Sn,p RT ×Jp×C Sm,p, Sn,p RT ×P×C ，其中 p B。
调整大小操作后，所有 B 身体部位都具有相同的尺寸。
投影。投影操作旨在将每个人调整大小的身体部位转换为 BPT 序列以馈送到 Transformer。具体来说，我们在 Sm,p 和 Sn,p 上应用内核大小为 P P 的 2D 卷积来生成
分别为 2D 特征图。每个输出特征图的大小为 L D，
其中 L = (T + 2 padding P + 1)/stride 和 D 表示输出通道的数量。 “填充”和“步幅”表示卷积滤波器的填充大小和步幅。然后可以将每个 2D 特征图拆分为 L 个步骤的序列，其中每个步骤是一个维度为 D 的特征向量。投影可以表示如下：

其中 em,p,j, en,p,j RD 分别表示交互人员 m 和 n 在时间步 j 处身体部分 p 的嵌入。 j [1, , L], D 是嵌入的维度。 L 是每个身体部位的时间步数。投影后，我们将所有 B 个身体部位的嵌入逐步连接到所有 L 个时间步，以生成一个具有 M = B L 个时间步的序列。该序列称为 BPT 序列。如图 3 所示，BPT 序列可以看作是 L 个子序列的组合，每个子序列由 B 个身体部位的特征组成。我们表示从两个交互人员的骨架序列生成的 BPT 序列为 Hm，Hn RM×D。向 Hm 和 Hn 添加了可学习的位置编码 [5]形成两个共享权重自编码 (SE) 模块的输入，它们是标准的一层变压器[5]。 SE的输出序列表示为Hme，Hne RM×D，然后将其馈送到图交互多头自注意力（GI-MSA）模块以对交互的身体部位进行建模并生成每个交互式主题的增强表示。

Graph Interaction Multi-head Self-Attention

为了准确识别人类交互，一个关键提示是交互的身体部位。考虑到交互式身体部位可能存在的语义对应和距离特性，我们提出了一个图形交互多头自注意力（GI-MSA）模块，将交互式身体部位建模为两个交互图，如图所示在图 2 (b) 中。具体来说，GI-MSA 包含一个基于语义的密集交互图（SDIG）和一个基于距离的稀疏交互图（DSIG）。 SDIG 是通过以数据驱动的方式探索交互身体部位的语义相关性来学习的，而 DSIG 是基于先验知识构建的，即交互人的物理上接近的身体部位通常是交互身体部位，应该是连接的。使用 SDIG 和 DSIG，所提出的 GI-MSA 从语义和距离空间对人类的交互关系进行建模，以捕获关键的交互信息。最后，通过聚合来自其他人的交互特征来增强每个人的表示。

基于语义的密集交互图为了捕捉人的交互身体部位之间的语义相关性（例如，一个人拿着相机的手和另一个人在“拍照”动作中“是”的手），我们为每个交互的人构建了一个基于语义的密集交互图（SDIG）。

Figure.3：语义模块架构

基于距离的稀疏交互图除了从语义层面对交互关系进行建模外，我们还计算了交互人员身体部位之间的距离相关性。 DSIG 是一个预定义的图，可以在数据预处理阶段构建。 DSIG 的想法是利用身体部位之间的距离来构建一个包含交互人员身体部位之间的连接信息的邻接矩阵。更具体地说，如果交互人的两个身体部位之间的距离较小，则这两个身体部位是相连的。
基于交互的特征生成给定基于语义和距离的交互图，我们将图的交互信息与交互人的个体特征聚合，以生成增强的表示，以更好地识别交互，如图 2 (b) 所示 .

IGFormer: Interaction Graph Tran

摘要

介绍

相关工作

Skeleton-based Action Recognition

Human Interaction Recognition

Visual Transformer

Interaction Graph Transformer （TO BE DONE）

Semantic Partition Module

Graph Interaction Multi-head Self-Attention

实验

数据集

实现细节

消融实验

猜你喜欢

热点阅读