论文 | FaceNet脸部识别《FaceNet：A unifi

2018-07-04 本文已影响27人与阳光共进早餐

一写在前面

最近在学图像检索这一方面的内容，所以挑了两篇比较经典的论文来学习：

两篇论文分别是contrastive loss和triplet loss的应用。

之前已经写了第一篇文章的总结论文 | 图像检索经典论文解读《Learning visual similarity for product design with convolutional neural networks》，现在把FaceNet这篇也看掉了，所以趁热整理一下。

二文章简介

1 整体介绍

首先看题目就可以知道，文章提出了一个FaceNet结构，可以用于脸部识别和聚类的统一嵌入网络。
简单来说就是可以学习每张人脸的欧几里德距离，取两张人脸图像欧几里德距离的L2范式的平方就可以直接对应于这两张人脸图像之间的相似性。
- L2的平方小，相似度高；
- L2的平方大，相似度低；
得到嵌入距离之后就可以很快的解决一下问题：
- face verification: 人脸验证，设置一个阈值，距离小于阈值即可；
- face recognition: 人脸识别，可以用k-NN邻近算法；
- face clustering：人脸聚类，可以用k-means等算法；

跟之前那篇论文一样，本质在于学习到图像的表示，所以论文题目称之为统一的嵌入网络。

如下图展示的是人脸验证

得到2张人脸的相似度，小于阈值1.1即判定为同一个人。

2 文章主要贡献

文章主要完成了FaceNet这样一个用于学习人脸图像特征的模型，主要有以下几点：

直接用CNN网络进行端到端的训练；
使用了triplet loss，并提出了比较好的triplet 样本挖掘方法；
仅仅用128字节的大小表示人脸就达到state-of-art 水平。

这里我主要总结了网络结构部分的内容，其他的内容感兴趣的小伙伴可以再点击最下面的参考文献阅读原文~~~

三网络结构介绍

1 模型结构

如上图所示即为模型的整体结构。

假设我们先不管中间DEEP ARCHITECTURE的具体结构，还是将其作为一个黑盒子f(x)。
输入人脸图像数据x，通过深度CNN之后就会得到一个f(x),再对其做L2归一化之后就可以得到对这张人脸的表示embedding。
然后用triplet loss(anchor, positive, negative)方法对这整个模型进行端到端的训练。

接下来我会具体介绍网络模型中的各个部分。

2 triplet loss

1. 宏观理解

对于一组triplet sample(anchor, positive, negative)；
我们旨在通过神经网络的训练与学习让(anchor,positive)的距离变小，让(abchor,negative)的距离变大；

2. 函数建模

我们用(Xa,Xp,Xn)来表示一组数据；
我们希望满足以下条件：
对于任意一组数据，我们都希望(anchor,positive)之间的距离+margin < (anchor,negative)之间的距离；

3. loss function

根据上面的式(1), (2)，我们可以得到如下的损失函数：
我们的目标就转变为训练网络模型使得上式(3)的loss function不断变小。

3 triplet 样本选择

1. 目标

如何选择triplet sample对于模型的训练以及最后的结构都非常重要；
因此本文提出了一种用于寻找较好triplet sample的方法，旨在让triplet的难度随着网络的训练而逐渐增加；

2. hard triplet

hard triplet指的就是那些比较难判断的sample，体现在anchor与正样本的距离较大，anchor与负样本的距离较小；
这样能够训练网络模型识别的难度；
所以用数学表示，即我们希望能够找到这样的postive与negative：

3. 难点

对于每一个anchor，都想选择一个hard triplet是有难处的；
首先在所有的训练集合内是选择最难的positive与negative是不现实的，需要耗费大量的时间与计算；
其次这样选出来的很可能是错误标记或者是不良成像的图像，反而会导致training的过程并不好；

4. 解决方法

我们直观可以想到以下两种策略：

每n步线下生成：用最近一次训练好的网络在训练集的自己种选择argmax的positive以及argmin的negative
线上生成：在mini-batch中选择hard positive/nagative;
本文做了两部分的实验，但是文中展示出的用的是线上生成的方式，线下生成的没有给出结果展示。

4 CNN网络结构

文章一共探索了两种神经网络：

zeiler & Fergus model (NN1)
GoogleNet Style Inception model (NN2)
两个网络都能接受[220,220,3]的输入，输出[1,1,128]维的输出；
这边的细节就不再说了，反正就是一个特征提取网络的选择问题；

5 其他细节补充

1. 关于batch内样本分配

为了保证合理性，一定要保证每个triplet sampl都是正负样本的；
先保证每个minibatch中每个identity都有40张positive人脸图像；
再随机将neagtive faces放到minibatch中；

2. 关于batch_size

在深度神经网梯度下降中，我们希望batch_size不能太大；
在triplet section中我们又希望batch_size不能太小；
最后文章中取了1800/batch;

3. 关于网络参数

使用SGD优化；
初始learning_rate=0.05
margin:α=0.2

4. 关于semi-hard

如果全部都用hardest sample的话会导致模型坍塌, f(x)趋于0；
训练难度可以由难到简；
也可以选择semi-hard:

四写在最后

就写到这里吧，嘻嘻~~~~~~~~
ヾ(◍°∇°◍)ﾉﾞ

希望自己能一直保持写博客的习惯，保持记录的习惯，保持分享的习惯。

参考文献

FaceNet: A Unified Embedding for Face Recognition and Clustering

论文 | FaceNet脸部识别《FaceNet：A unifi

一写在前面

二文章简介

1 整体介绍

2 文章主要贡献

三网络结构介绍

1 模型结构

2 triplet loss

3 triplet 样本选择

4 CNN网络结构

5 其他细节补充

四写在最后

参考文献

猜你喜欢

热点阅读

论文 | FaceNet脸部识别《FaceNet：A unifi

一 写在前面

二 文章简介

1 整体介绍

2 文章主要贡献

三 网络结构介绍

1 模型结构

2 triplet loss

3 triplet 样本选择

4 CNN网络结构

5 其他细节补充

四 写在最后

参考文献

猜你喜欢

热点阅读

一写在前面

二文章简介

三网络结构介绍

四写在最后