论文阅读_DeepFashion

2020-05-03 本文已影响0人 xieyan0811

论文地址：http://www.ee.cuhk.edu.hk/~xgwang/papers/liuLQWTcvpr16.pdf
数据下载：http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html

《DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations》是2016年发表于CVPR的论文，该文主要关注服装识别和检索领域，探讨服装特征和服装关键点及大规模数据库的作用。

简介

服装建模常遇到以下问题是：

衣服的材质、样式丰富，容易混淆。
衣服容易变形或者被遮挡。
在不同光线环境（比如网店图片展示和在家拍照）图片差异大。

论文的主要贡献如下：

建立大规模标注数据库DeepFashion 为了解决上述问题，之前研究大都使用语言标注，但各个数据库的标注不同，类别相互交错，缺乏统一性。DeepFashion包括800,000张服装图片，50个细粒度类别，1000个属性，比边界框更精细的landmark（每张图含4-8个landmarks），区分用户场景和商品拍摄场景，以及不同场景下同一商品的关联。下表对比了DeepFashion与之前其它服装数据库：

设计FashionNet模型（很多模型都叫FashionNet），处理了服装的变形、遮挡问题，生成了更有效的特征描述。
建立了三个benchmark，以供后续研究作为效果评价的基线。它们分别是：服装特征分类、店中服装检索（网站中同一商品展示图的匹配），和跨领域的服务检索（用街拍相片检索店内商品）。

图像获取

数据库中的图像源自网店，搜索引擎、以及社交网络中的图片。网店每种商品包含4-5张不同造型角度的商品展示图，有的还提供用户上传的效果图，从网店中抓取391,482个商品，共1,320,078张图片。另外，从网店的描述中提取一些服装关键字，通过搜索引擎这些关键字，搜索到相应的图片12,654种检索，1,273,150张图片。

在数据清洗方面，使用AlexNet的fc7提取出的特征计算图片的距离，识别近似图片，并去重。最后通过人工筛选掉非服装、低品质、低分辨率的图片。

图像标注

分类和属性列表，使用“形容词+名词”方式描述，在分类方面，用50个名词作为类别，每一件商品只能属于一个类别，人工标注；在属性提取方面，提取出1000个高频词作为可提取的特征，这些特征又可归为：花纹、材质形状、部位和风格，属性由算法自动标注。

在图像landmark方面，标注了衣领、衣袖、衣服边缘等服装关键点，以及关键点是否被遮挡，如下图所示：

在配对标注方面，去除了噪声图片，以确保不同图片中的同一商品。

最终，还去掉meta-data描述过少的图片，在机器标注后进行人工抽检，人工标注部分不同人手工标注同一图像，以保证图像库的质量。

建立模型

模型框架如下图所示：

框架类似VGG16网络，不同的是，它将VGG网络最后一个卷积层替换成了三分枝结构。其中红色框通过处理卷积层的特征计算图片的全局特征；绿框处理池化层输出以及landmark计算局部特征；蓝框用于预测landmark的位置和是否被遮挡。红色和绿色的特征结合，可用于预测商品的类别、属性、以及不同的图片是否属于同一商品。

在实际使用模型预测时，数据先送入蓝框，估计出landmark，再将landmark和池化层一起送入绿框，估计局部特征，最终与红框做出的全局特征结合，实现具体的功能。

模型涉及四个评价函数：

评价landmark位置的回归：

其中D是实例数，l是位置信息，v是该位置是否可见。2为L2范数，这里加入了对位置是否可见的描述v，在位置不可见时，将不对位置调参。

使用softmax评价landmark是否可见以及商品分类。
用交叉熵预测商品属性

其中x是图片特征，a是属性标签，wpos和wneg由数据集中正反例的比例决定。

用Triplet评价相似度

其中x,x+,x-分别为待检索图片，检索出的正例和反例，d为距离，m为正反例距离的边界值。

训练任务分成两步，第一步是训练landmark，增加landmark具体位置的回归和是否可能的权重比例；第二步预测类型、属性、以及图片之间的相似度，两步迭代计算，直至收敛。

其中提取局部特征是一个关键步骤，如下图所示：

它的输入是从conv4卷积层获取的特征，再通过landmark是否可见，及其位置，取得其中某些小块的特征，如图所示，提取出了红蓝等多个特征区域，池化后作为局部特征，图中多层指的是卷积输出的多个特征通道。

模型效果

下表展示了不同模型对服装类别的预测效果，其中WTBI和DARN是之前的服装预测模型，FashionNet+100和FashNet+500在训练时分别使用100和500个属性，FashionNet+Joints用关节替代了衣服的关键位置信息，FashionNet+Poselets用姿态替代了位置信息。

下图展示了，店内商品检索的效果，FashionNet效果优于之前的两个模型，同样可以看到，越少的属性和非服装的landmark严重影响了模型效果。

与店内商品检索相比，用街拍照片检索网店商品，效果明显差了很多，但属性和landmark同样起到了关键作用。

各因素对检索的影响

在论文的最后，还分析了不同因素对服装检索的影响。下图展示了不同位置，以及是否携带属性对landmark检测效果的影响。可以看到领子更容易被检测到，这可能由于衣服与脖子关系比其它位置更为明显；携带属性的检索效果更好。

下图展示了不同角度，不同种类商品在图像检索中的效果差异，包含细节越丰富的类别检索效果越好。