RECURRENT MIXTURE DENSITY NETWOR

2017-06-27 本文已影响0人 huyuanda

选择这篇文章的原因有两个：
1，初识Visual Attention，了解一下；
2，五月初参加的CIKM AnalytiCup 2017比赛，需要用到CNN+LSTM模型，所以想学习并参照一下文中的模型。

ABSTRACT

在许多计算机视觉的工作中，解决问题所需要的手边的信息通常掺杂着不相关或者噪声。为了解决这个问题，得到更加“纯净”的数据，之前的工作提出了attentional models，动态的凸显出图像或者视频中的显著部分。本文提出了RECURRENT MIXTURE DENSITY NETWORK ，动态的凸显出视频中应该注意到的部分，并且改进视频中的human action recognition。

visual attention model：
文中使用mixture of Gaussians，可以表示出每个像素点显著的概率。
Time consistency model：

deep 3D convolutional features 深度3D卷积表示时空和视频切片级别的短时相关性；
LSTM集合短时相关性，将预测从几帧扩展到了数秒。

模型的参数使用极大似然估计（MLE），使用无需人工标注的动作类型的数据来训练模型。最后论文使用Hollywood2和UCF101作为数据集，显著性预测的实验结果达到了state-of-the-art，action classification accuracy的表现也得到了提升。

本文主要讲了两件事：

使用文章中提出的RMDN方法进行视频的显著性预测；
使用RMDN方法改进human action recognition。

INTRODUCTION

Attentional modeling

Attention model 在序列end to end问题上广泛应用，结合RNN、LSTM、GRU等常用递归神经网络可以取得很好的效果；在计算机视领域也有非常广泛的利用，因为序列因素的存在，所以通常在图文转换或者视频描述等应用中出现。本文主要使用attention modeling处理视频显著性。

Visual attention model的意义

在引入Attention(注意力)之前，图像识别或语言翻译都是直接把完整的图像或语句直接塞到一个输入，然后给出输出。
而且图像还经常缩放成固定大小，引起信息丢失。
而人在看东西的时候，目光沿感兴趣的地方移动，甚至仔细盯着部分细节看，然后再得到结论。
Attention就是在网络中加入关注区域的移动、缩放、旋转机制，连续部分信息的序列化输入。
关注区域的移动、缩放、旋转采用强化学习来实现。

本文使用soft attentional model down-weighting 视频帧中不显著的像素点。

视频中的Visual attention model

因为人体动作与时间非常相关，前后帧的动作具有很强的相关性，只使用Visual Attention模型是无法识别人体动作的，所以文中将视频注意力模型定义为时空体积，每一个显著图取决于之前的帧，此处的显著图可以理解为像素显著性的概率分布，表示每个像素的显著性概率。得到显著图后，我们就能够通过采样得到人体动作特征。

视频中的Visual attention model相比图像有很多挑战：

相比图像，视频的数据量非常大，Computational cost相应也会提高；
视频中存在许多冗余信息，举例来说视频中的人在相邻帧下不会有很明显的改变，所以加入Visual attention model是很有必要的；
视频相邻帧有很强的相关性，如果要想确定时空体积，需要考虑到高阶图像显著特征以及之前的人体动作。

主要创新点和优势

为了应对之前阐述的挑战，文中提出了RMDN模型，将视频中的每一帧原始图像转化为显著性图像，得到重新加权的视频，然后使用新得到的视频改进人体动作识别。

文中的方法有以下几点优势：

模型训练可以不依赖与人工标注的时空特征；
RMDN可以模拟人的注意力；
生成显著图的速度非常快；
RMDN得到的显著图准确率很高；
使用显著图预测，提高了人体动作识别的准确率。

Design