000012020-7-21 Face Parsing with
2020.07.21 开始阅读
代号 0001
2019 CVPR
Face Parsing with RoI Tanh-Warping
Jinpeng Lin, Hao Yang, Dong Chen, Ming Zeng, Fang Wen, Lu Yuan
Helen* 数据集:
[https://github.com/JPlin/Relabeled-HELEN-Dataset](https://github.com/JPlin/Relabeled-HELEN-Dataset)
摘要
现存的人脸解析方法通过聚焦独立感兴趣区域来对人脸和人脸组件进行识别。
但是,这种传统的 crop-and-resize 聚焦机制忽略了感兴趣区域外的上下文,特别对一些不可预测的组件来说,效果尤差,例如头发。
受到人类视觉机制的启发,我们提出了一个新颖的 RoI Tanh-warping 操作,该操作可以结合中心视觉 (the central vision) 和外部视觉 (the peripheral vision),来解决上述问题。
我们提出了一个混合的卷积神经网络,Mask R-CNN 风格的网络用于对人脸内部组件进行检测与分割,FCN 风格的网络用于提取人脸外部组件。
1. 引言
特别的,提出头发分割的问题,以前的方法要么不能很好的完整分割出头发(因为用的矩形框),要么对靠着的人的头发无法分离,要么直接忽略头发分割这个问题(受限于算法或受限于数据集)。
受人类视觉的启发【13】,我们提出 RoI Tanh-warping 操作,该操作非线性的将一幅图拉伸到固定尺寸,其中,越重要的部分分辨率越高。
在得到扭曲的图像之后,我们将其输入到内部组件网络与外部组件网络中。
内部组件网络负责分割眉毛、眼睛、鼻子和嘴巴。
外部组件网络负责分割头发、面部与背景。
我们的工作有四大贡献:
- 提出了新方法,解决头发与脸内部组件的空间不平衡问题。
- 介绍了 RoI Tanh-warping 操作,解决了输入图像固定尺寸与头发的不可预测区域问题。
- 设计了一个神经网络,该网络整合 Mask R-CNN 风格的分支与 FCN 风格分支来分别分割内部组件与外部组件。该网络可以进行端到端的训练。
- 我们的方法比已有方法效果都好,而且我们还对 Helen 数据集进行了重新标注,提供了更好的数据集。
2. 相关工作
语义分割
FCN, CRFasRNN, DeepLab, Mask R-CNN...
直接在人脸解析上应用这些方法效果不好,因为人脸组件间的空间配置复杂多变,特别是头发。
人脸解析
人脸解析方法主要分为两类:一类是全局的方法,一类是局部的方法。
全局的方法将组件看作是全局的,同时整合面部空间关系的先验 (integrate the prior of face layout)。但精度受限。
局部的方法总是采用由粗到细的策略,同时考虑全局一致性与局部精度。但大多为两阶段模型,没有追求通过共享骨干网络和联合优化来提高精度与效率。
肖像/头发分割
这方面的工作较少,而且这可以看作是人脸解析的子任务。
3. 方法
- 使用人脸检测器和人脸关键点检测器检测五个关键点,基于这些点构建一个人脸包围盒。
- 使用 RoI Tanh-warping 将其扭曲成固定尺度。
- 检测人脸内部组件,并对每个组件进行分割。在全局特征的基础上,对外部组件直接进行分割。
- 将内部组件与外部组件的分割结果进行整合,最后再扭曲回去。
3.1 RoI Tanh-Warping
3.2 特征提取
3.3 组件预测
3.4 组件分割
3.5 实现细节
4. 实验
Helen dataset
11 labels: bg, facial skin, left/right brow, left/right eye, nose, upper/lower lip, inner mouth, hair
2330 = 2000(training) + 230(validation) + 100(testing)
LFW-PL
3 labels: skin, hair, bg
2970 = 1500(training) + 500(validation) + 927(testing)