Joint Face Detection and Facial
2020-04-02 本文已影响0人
Cat丹
概述:
CVPR2019的paper。通过一个端到端的同时解决人脸检测和3DMM参数估计问题。估计的3DMM参数包括:50个身份相关参数,46个表情相关参数,还有姿态参数。由于缺少多人脸的3DMM数据库,paper提出用单人脸模型学习的3DMM数据作为groundtruth。
Our joint network can be run in real-time on mobile devices without engineering level optimization, e.g. only 39ms on Google Pixel 2.
Facial Motion Retarget科普
方法
- 输入2D图片,通过某些方法获取3DMM参数(表情,姿态等)
- 将获取的3DMM参数迁移到目标3D任务中
相关任务的区别
- 2D人脸对齐:注重关键点位置的准确性
- 3D人脸重建:注重3D模型和人脸细节的准确性,更看重几何细节
- Facial Motion Retarget:只要准确地转移表情和头部姿态
细节:
-
两个网络:SFN(单人脸检测和3DMM参数估计网络),MFN(多人脸检测和3DMM参数估计网络),其中后者依赖前者,最终使用的也是后者
-
3DMM参数(后两个只需要全局信息,即高层特征;前两个需要多层信息)
- identity
- expression
- pose
- scale
-
网络结构:采用了轻量级的FM和SE模块
network.png -
loss:loss1为SFN的loss,计算了3DMM损失和人脸坐标损失;loss2 为MFN的loss,与loss1大致相同,只不过借用了yolo的思想将输入图划分为9*9的区域,每个区域5个anchor,但是貌似少了计算objectness的损失?
landmark.png
一点感想:
- 用一个网络同时解决人脸检测和3DMM参数估计问题,而且能够在移动端实时,的确令人惊艳。而且两个任务融合后还能互相促进。
- 感觉SFN这一步似乎有点多余呢?既然训练SFN的3DMM可以用其他的算法生成,为什么MFN不用同样的算法来生成呢?看完参考文献5再来填坑。