论文阅读_DeepFashion

2020-05-03  本文已影响0人  xieyan0811

论文地址:http://www.ee.cuhk.edu.hk/~xgwang/papers/liuLQWTcvpr16.pdf
数据下载:http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html

《DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations》是2016年发表于CVPR的论文,该文主要关注服装识别和检索领域,探讨服装特征和服装关键点及大规模数据库的作用。

简介

服装建模常遇到以下问题是:

论文的主要贡献如下:

图像获取

数据库中的图像源自网店,搜索引擎、以及社交网络中的图片。网店每种商品包含4-5张不同造型角度的商品展示图,有的还提供用户上传的效果图,从网店中抓取391,482个商品,共1,320,078张图片。另外,从网店的描述中提取一些服装关键字,通过搜索引擎这些关键字,搜索到相应的图片12,654种检索,1,273,150张图片。

在数据清洗方面,使用AlexNet的fc7提取出的特征计算图片的距离,识别近似图片,并去重。最后通过人工筛选掉非服装、低品质、低分辨率的图片。

图像标注

分类和属性列表,使用“形容词+名词”方式描述,在分类方面,用50个名词作为类别,每一件商品只能属于一个类别,人工标注;在属性提取方面,提取出1000个高频词作为可提取的特征,这些特征又可归为:花纹、材质形状、部位和风格,属性由算法自动标注。

在图像landmark方面,标注了衣领、衣袖、衣服边缘等服装关键点,以及关键点是否被遮挡,如下图所示:

在配对标注方面,去除了噪声图片,以确保不同图片中的同一商品。

最终,还去掉meta-data描述过少的图片,在机器标注后进行人工抽检,人工标注部分不同人手工标注同一图像,以保证图像库的质量。

建立模型

模型框架如下图所示:

框架类似VGG16网络,不同的是,它将VGG网络最后一个卷积层替换成了三分枝结构。其中红色框通过处理卷积层的特征计算图片的全局特征;绿框处理池化层输出以及landmark计算局部特征;蓝框用于预测landmark的位置和是否被遮挡。红色和绿色的特征结合,可用于预测商品的类别、属性、以及不同的图片是否属于同一商品。

在实际使用模型预测时,数据先送入蓝框,估计出landmark,再将landmark和池化层一起送入绿框,估计局部特征,最终与红框做出的全局特征结合,实现具体的功能。

模型涉及四个评价函数:

其中D是实例数,l是位置信息,v是该位置是否可见。2为L2范数,这里加入了对位置是否可见的描述v,在位置不可见时,将不对位置调参。

其中x是图片特征,a是属性标签,wpos和wneg由数据集中正反例的比例决定。

其中x,x+,x-分别为待检索图片,检索出的正例和反例,d为距离,m为正反例距离的边界值。

训练任务分成两步,第一步是训练landmark,增加landmark具体位置的回归和是否可能的权重比例;第二步预测类型、属性、以及图片之间的相似度,两步迭代计算,直至收敛。

其中提取局部特征是一个关键步骤,如下图所示:

它的输入是从conv4卷积层获取的特征,再通过landmark是否可见,及其位置,取得其中某些小块的特征,如图所示,提取出了红蓝等多个特征区域,池化后作为局部特征,图中多层指的是卷积输出的多个特征通道。

模型效果

下表展示了不同模型对服装类别的预测效果,其中WTBI和DARN是之前的服装预测模型,FashionNet+100和FashNet+500在训练时分别使用100和500个属性,FashionNet+Joints用关节替代了衣服的关键位置信息,FashionNet+Poselets用姿态替代了位置信息。

下图展示了,店内商品检索的效果,FashionNet效果优于之前的两个模型,同样可以看到,越少的属性和非服装的landmark严重影响了模型效果。

与店内商品检索相比,用街拍照片检索网店商品,效果明显差了很多,但属性和landmark同样起到了关键作用。

各因素对检索的影响

在论文的最后,还分析了不同因素对服装检索的影响。下图展示了不同位置,以及是否携带属性对landmark检测效果的影响。可以看到领子更容易被检测到,这可能由于衣服与脖子关系比其它位置更为明显;携带属性的检索效果更好。

下图展示了不同角度,不同种类商品在图像检索中的效果差异,包含细节越丰富的类别检索效果越好。

上一篇下一篇

猜你喜欢

热点阅读