Multi-Person Pose Estimation wit
Paper Reading: Multi-Person Pose Estimation with Enhanced Channel-wise and Spatial Information
Multi-Person Pose Estimation with Enhanced Channel-wise and Spatial Information
本文由字节跳动和东南大学组队完成,提出了基于增强通道和空间信息的人体姿态估计网络,获得了今年 Look Into Person (LIP) 竞赛 Single-Person Human Pose Estimation 挑战赛的冠军。
介绍
多人姿态估计即定位图像中的所有人的身体部位,例如手臂、躯干和面部的关键点。然而在计算机视觉中,光照影响、尺度差异、遮挡等问题的存在,使得很难获得准确的人体关键点定位结果。一般来说,具有较大感受野的高层特征图可以用来推断不可见和遮挡的关键点,而低层的高分辨率的特征图对适应尺度变化推导小尺度的关键点十分重要,因此两者之间的平衡就很重要了。如何结合并利用这两部分特征也是一个难点。基于此,本文作者提出了一个 Channel Shuffle Module (CSM) 来进一步增强所有比例的特征图之间的跨通道通信。此外,还设计了一个 Spatial&Channel-wise Attention Residual Bottleneck (SCARB),用于在空间和通道中自适应地增强融合的特征图信息。
贡献
本文的主要贡献可以总结为以下三点:
- 提出了 Channel Shuffle Module (CSM), 可以增强低层和高层特征图之间的跨通道信息通信。
- 提出了 Spatial, Channel-wise Attention Residual Bottleneck (SCARB), 可以在空间和通道上自适应地增强融合金字塔特征信息。
- 此方法在 COCO 关键点基准上达到了 state-of-the-art 的结果。
方法
CSM: Channel Shuffle Module
对于多人姿态估计,低级和高级特征图之间的折衷仍然存在限制。不同层间具有不同特征的通道信息可以相互补充和加强。基于此,本论文提出了 Channel Shuffle Module 来进一步重新校准低级和高级特征图之间的相互关系。如图1所示。对原始提取出的多个特征块进行1*1卷积,变换到相同的通道数,再对低分辨率的特征进行上采样到相同的分辨率,这些特征被连接在一起后执行信道混洗操作,以融合不同级别之间的互补通道信息。最后将混洗的特征分开,并分别下采样到原始分辨率。
![](https://img.haomeiwen.com/i4018124/57ab5995870daef7.png)
ARB: Attention Residual Bottleneck
特征融合的过程是动态多变的,融合后的特征往往也存在许多冗余。网络中那些对姿态估计任务更加有效的特征信息应该被自适应地突显出来。因此,论文提出基于空间和通道注意力机制的残差模块,自适应地从空间和通道两个维度增强刚刚融合后的金字塔特征信息。如图2所示,本文最后采用了 Spatial, Channel-wise Attention Residual Bottleneck (SCARB)。
![](https://img.haomeiwen.com/i4018124/9028d4af2f3421ae.png)
整体网络结构
本文以 Cascaded Pyramid Network (CPN) 作为基础网络结构,探索Channel Shuffle Module (CSM) 和Spatial, Channel-wise Attention Residual Bottleneck (SCARB) 对多人姿势估计的影响。具体网络结构如图3所示。
![](https://img.haomeiwen.com/i4018124/8975a44c396ebb87.png)
实验
本文做了大量的实验来探究最佳的网络结构和参数,如Channel Shuffle Module (CSM) 中进行 Shuffle 操作组数的确定,还有在添加注意力机制时是先 Spatial 后 Channel-wise Attention还是先Channel-wise 后 Spatial Attention顺序的确定,以及单独增加 CSM、SCARB 模块还是两者共同作用,都进行了实验探索最佳的网络结构,才得到了图1.3中最终的网络设计。
![](https://img.haomeiwen.com/i4018124/386157c3d200ad22.png)
最后论文将提出的模型与COCO测试数据集上的其他最先进的方法进行比较。结果如表1所示,超越了先前所有的方法,在COCO关键点基准上实现了 state-of-the-art 的性能。
总结
本篇论文的主要贡献在于对CPN 网络加入 Channel Shuffle 操作和引入注意力机制,在COCO关键点基准上实现了 state-of-the-art 的性能。虽然这两个模块的操作都不算作者的原创,Channel Shuffle 的操作思想源于 ShuffleNet,注意力机制在很多领域的应用也很普遍。但本文的工作还是有很多值得借鉴的地方,在Channel Shuffle Module 的操作中,将 ResNet 中提取的金字塔特征进行上采样到相同的分辨率,再进行 Channel Shuffle 操作,最后分别下采样到原始分辨率,并将最终混洗得到的特征图与原始金字塔特图连接起来,最终获得增强的金字塔特征, 这些增强的金字塔特征图不仅包含来自原始金字塔特征的信息,还包含来自混叠金字塔特征图的融合的跨通道信息,这个操作对于那些以 ResNet 作为 Backbone 的网络都有参考意义。同时注意力机制也是一个很值得尝试的操作,在很多任务中,注意力机制都被证明对性能提升有一定帮助。
本论文给人最终的感觉就是简单高效,通过并不复杂的操作实现高性能,而且本文通过大量实验来确定网络参数的最优选择,实验考虑也很全面周到,有足够的说服力。