[Paper Share - 6]Video2Shop: Exa

2017-12-09 本文已影响68人少侠阿朱

导读
这是一篇阿里巴巴团队发表在CVPR2017关于衣物检索的论文。文章提出从视频到网店商品的检索方法。通过LSTM对视频帧进行处理，提取一系列特征，将这些特征和数据库的特征一起通过一个学习来的树形网络计算得到相似度。文章链接

1. Introduction

这部分主要讲述应用场景，并指出Video2Shop的检索相比stree2shop的检索会面对的难题：比如杂乱的背景，视角挑战，遮挡，不同的光照条件，运动模糊等等。使得Video2Shop更难。于是作者提出一个框架AsymNet来解决这样的问题。如下图Figure 1。

figure 1

从图中可以看出，AsymNet分成3部分：IFN，VFN，SN。训练的时候，IFN对shoping image（网店的商品图）进行处理，提取特征m，而该商品对应的视频由VFN处理，VFN先用Faster RCNN进行检测，然后用KCF算法进行跟踪得到一些列的clothing patches，并用IFN提取相应的特征。这些特征进入两层的LSTM后也会输出对应的隐藏层特征，当然你可以设置更多的帧数，获得更多的特征。LSTM输出的特征和上面商品展示图的特征一块传进SN，SN是一个树结构网络，参数可以学习得到。经过网络处理后输出一个相似度。测试时也是同样操作。
文章贡献点主要在于提出了这样的网络结果，并给出一个近似的训练方法来提高训练速度。但是他们没有公开他们的数据和代码，这比较可惜。(没有代码和数据，说个**（手动屏蔽敏感字眼）)

2. Related Work

这部分没啥好说的。快进>>>

3. Representation Learning Network

3.1 Image Representation Learning Network

IFN是用来提取图像特征的。网络主体是VGG-16，用的是Faster RCNN的框架。由于衣服多种多样，大小不一，所以为了统一输出特征的大小，在卷积层和全连接层之间插入了一个SSP层。下图Figure 2所示。

Figure 2

3.2 Video Representation Learning Network

如图1为了学习到时域信息，作者只好上LSTM，对于一个包含n个clothing patch的序列，用IFN提取特征后，灌进LSTM，得到对应的LSTM输出的特征序列。经过作者的实验，一层的LSTM很难学到时域信息，使用两层可以获得较好的效果。

4. Similarity Learning Network

4.1 Motivation

相似度网络的输入包含LSTM的多个特征和shop image的特征，这是个多对一的问题。传统的做法是对LSTM的特征序列进行average pooling或者max pooling，又或者直接取最后一层的特征。但是作者认为这些做法过于简单粗暴，不能很好地处理视频数据多变和复杂的数据。
作者认为这是一个混合估计问题（mixture estimate problem），这类型的问题可以通过拆解多个简单的问题并分别求解，最后结合在一起作为复杂问题的解。于是作者想通过应用专家模型来解决这个问题。多个fusion nodes估计不同视角的相似度，最后加权得到总的相似度。

4.2 Network Structure

如图1中，树结构有两种节点，similarity network node（SNN）和fusion node（FN），对应书的叶子和分支。
SNN
比如LSTM输出的某个状态hi,并且有个图片的特征m，SNN计算hi和m的相似度，SNN的结构是两个全连接层：fc1（输出大小大小256）和 fc2 (输出大小1)。fc2的输出标记为Zi的话，那么SNN最后的输出yi由下面式子计算得到。

FN
SNN是分段平滑的，类似于广义的线性模型。一旦SNN计算好后，fusion score将会通过由FN组成的树结构进行计算。为了简单起见，这里只是展示了两层的树结构。底层（low-level）的FN和SNN链接，而顶层（top-level）的SN指向根节点。
对于底层的FN_ij,即第i个底层FN链接第j个顶层FN，这里说的有点抽象，看图就懂了。定义一个中间变量eij如下：