论文阅读（11）Facial Landmark Detectio

2019-06-17 本文已影响0人续袁

1.作者相关

ECCV2014

2. 摘要

由于遮挡和姿势变化的问题，面部关键点的检测一直受到阻碍。我们不再将检测任务视为一个独立的问题，而是研究通过多任务学习提高检测鲁棒性的可能性。具体地说，我们希望用异质但微妙相关的任务去优化人脸关键点检测，例如头部姿势估计和面部属性推断。这是不平凡的，因为不同的任务有不同的学习困难和收敛速度。为了解决这一问题，我们提出了一种新的任务约束深度模型，通过提前停止任务来促进学习收敛。广泛的评估表明，所提出的任务约束学习（i）优于现有的方法，特别是在处理具有严重遮挡和姿势变化的人脸时，以及（ii）与目前基于级联深度模型的最新方法相比，大大降低了模型复杂性。

2.2 主要贡献

Multi-task learning is not new (see Section 2), but to our knowledge, this is the first attempt to investigate how facial landmark detection can be optimized together with heterogeneous but subtly correlated tasks. We systematically show that multiple tasks share and learn common deep layers, so the representations learned from related tasks facilitate the learning of the main task. We further show that tasks relatedness are captured implicitly by the pro-posed model. The proposed approach outperforms the cascaded CNN model and other existing methods. Finally, we demonstrate the effectiveness of using our five-landmark estimation as robust initialization for improving a state-of-the-art face alignment method.
（1）多任务学习并不新鲜，但据我们所知，这是第一次尝试研究人脸关键点检测如何与异质但微妙的相关任务一起优化。
（2）我们系统地展示了多个任务共享和学习共同的深层次，因此从相关任务中学习的表示有助于学习主要任务。进一步证明了该模型隐式地捕获了任务的相关性。
（3）该方法优于级联CNN模型和其他现有方法。最后，我们证明了使用我们的五个关键点估计作为鲁棒初始化改进目前最先进的面部对齐方法的有效性。

3.主要思想

3.1 创新点

（1）将MTL（多任务学习）结合CNN应用到人脸关键点检测；
（2）为解决各任务有着不同收敛速度而导致的优化难问题，提出针对多任务学习的early stopping。
（3）TCDCN是借助了MTL（多任务学习）机制，有效将面部属性（如：性别，是否戴眼镜，微笑与否，面部姿势）结合到人脸关键点检测任务上。
理论支撑：在进行人脸特征点检测任务时，结合一些辅助信息可以帮助更好的定位特征点。

image.png

4.主要方法

4.1 模型

作者将人脸关键点检测（5个关键点）与性别，是否带眼镜，是否微笑和脸部的姿势这四个子任务结合起来构成一个多任务学习模型，模型框架如图所示：

TCDCN网络结构

网络输入为40X40的灰度图，经过CNN最终得到2X2X64的特征图，再通过一层含100个神经元的全连接层输出最终提取得到的共享特征。该特征为所有任务共同享用，对于关键点检测问题，就采用线性回归模型；对于分类问题，就采用逻辑回归。

4.2 损失学习函数

（1）传统的多任务学习（multi-task learning）把每个任务都赋予相同的权重：

image.png

其中， $f(x^t;w^t)$ 表示 $x^t$ 与权值矩阵 $w^t$ 相乘之后经过函数 $f(∗)$ ， $l(∗)$ 表示损失函数， $Φ(⋅)$ 是正则项。可以看到对于各任务t而言，其重要性是相同的，

（2）但是在多任务学习中，往往不同任务的学习难易程度不同，若采用相同的损失权重，会导致学习任务难以收敛。文章针对多任务学习中，不同学习难度问题进行了优化，提出带权值的目标函数：

image.png

（3）针对人脸关键点检测任务，本文结合了四个子任务，分别是：性别、是否带眼镜、是否微笑和脸部的姿势，不同的任务具有不同的loss，特征点检测是平方和误差，而其它分类任务是交叉熵误差，因此最后的目标函数为：

image.png

从这个式子可以看到，第一项是平方和误差，表示人脸关键点损失函数；第二项是分类任务，采用的是交叉熵误差，不同的分类任务loss相加；第三项即正则项，惩罚大权重。在训练时，各个任务使用相同的特征，只有在最后一级才根据任务的不同做不同处理（线性回归或者分类）。值得注意的是，这个式子中的 $\lambda ^a$ 论文中并未给出具体数值，可以认为是一个超参数，需要自行调参，我估计这个数值对结果有一定的影响。