Paper

基于人体骨架序列的视频行为识别

2019-08-22  本文已影响0人  谢小帅

整体思路

Reference: Yan S, Xiong Y, Lin D. Spatial temporal graph convolutional networks for skeleton-based action recognition[C]//Thirty-Second AAAI Conference on Artificial Intelligence. 2018.

fig1. ST-GCN architecture

1. 基于 OpenPose 的 2D 多人 姿态/骨架 估计

OpenPose 总共估计人体 18 个关节点,关节点顺序和名称如下图:

fig2. OpenPose 18 joints

2. build Spatial-Temporal Graph on skeleton sequence

fig3. Spatial-Temporal Graph of a skeleton sequence

注:spatial graph 理解为单帧中的骨架图,temporal graph 为多帧之间相应关节点的连接图

3. Graph Convolution details

3.1 传统图像在坐标点 x 位置的 conv

f_{out}(x) = \sum_{h=1}^{K}\sum_{w=1}^{K}f_{in}(p(x,h,w)) · w(h,w)

3.2 图卷积在顶点 v_{ti} 位置的 conv

注:划分 K 个子集,同一个子集内的节点采用相同的权重,从而实现权重共享。可按照邻域 path 划分,也可按照节点距离重心的远近划分,见 part 4

3.3 Spatial Graph Convolution 空域图卷积

f_{out}(v_{ti}) = \sum_{v_{ti}∈B(v_{ti})} \frac{1}{Z_{ti}(v_{tj})} f_{in}(p(v_{ti},v_{tj})) · w(v_{ti},v_{tj})

上述公式样式仍然偏向传统图像卷积,进一步转化为图卷积样式:

f_{out}(v_{ti}) = \sum_{v_{ti}∈B(v_{ti})} \frac{1}{Z_{ti}(v_{tj})} f_{in}(v_{tj}) · w(\color{red}{l_{ti}(v_{tj})})

3.4 Spatial Temporal Modeling 时空图卷积

时空邻域采样函数:空域连接 扩展到 时域连接,单帧扩展到多帧
B(v_{ti})= \{ v_{qj}|d(v_{tj},v_{ti}) \leq K, |q - t| \leq \lfloor \Gamma /2 \rfloor \}

时空邻域权值函数:划分子集 labeling 扩展到时域
l_{ST}(v_{qj}) = l_{ti}(v_{tj}) + (q-t+\lfloor \Gamma /2 \rfloor)×K

4. 划分子集 & labeling

labeling 体现了 将邻域的特征聚合到当前节点 的一种规则。

综上所述,邻域 joints 子集的划分特点:

  1. 既能保留局部信息,又能涵盖全局信息
  2. 邻域权重划分更加多样性

5. Implementing ST-GCN

5.1 邻接矩阵

对于 (c)(d) 划分,邻接矩阵 A 被分成了不同子集 \sum_jA_j
f_{out} = \sum_j \Lambda^{-\frac{1}{2}} A_j\Lambda^{-\frac{1}{2}}f_{in}W_j

添加 mask MA_j \otimes M,学习不同邻接点对 root 的权重影响

5.2 网络结构
"9 ST-GCN units,temporal kernel size = 9 感受野"
# out 64 channels
ST-GCN
ST-GCN
ST-GCN
# out 128 channels
ST-GCN  # stride = 2,时域下采样,2 frame -> 1frame
ST-GCN
ST-GCN
# out 256 channels
ST-GCN  # stride = 2,时域下采样,2 frame -> 1frame
ST-GCN
ST-GCN
"Global Pooling, feature map -> 256 dimension feature vector"
GAP
"Softmax classifier"
softmax
上一篇 下一篇

猜你喜欢

热点阅读