深度学习-推荐系统-CV-NLP人工智能/模式识别/机器学习精华专题神经网络与深度学习

论文 | 小样本视频动作分类few-shot video act

2019-11-09  本文已影响0人  与阳光共进早餐

一 写在前面

未经允许,不得转载,谢谢~~~

有将近2个月的时间没有在简书上更文了,这段时间小伙伴们的留言和评论也没有及时处理,/抱歉(灬°ω°灬)

这篇文章是我自己的第一篇学术论文,从去年4月投稿到10月底参加学术会议,中间学到很多东西。

希望会是一个好的开始,希望接下来能保持努力。❥

文章基本信息:

二 文章简介

这个工作主要是针对小样本视频分类任务。

2.1 motivation

1. one-shot learning基本介绍

目前比较多的工作都还是基于image-domain上的研究,并且在general setting下source domain和target domain中的样本类别应该是不一样的

2. one-shot learning revisited

视频相比于图像而言会多一个时域维度,所以将小样本学习从image-domain扩充到video-domain时就会碰到一些问题,这个是我们presentation时候画的示意图:


在视频的小样本学习中很容易会出现非常相近的视频同时出现在source domain和target domain中的情况,换句话说就是一个被标记为Action A的视频里面会出现包含Action B的情况。例如shooting basketball这样一个投篮的动作中就有非常大的可能包含running跑步的视频片段;

这样的一个overlapping issue本身会带来一些不太好的影响:

2.2 contribution

  1. 针对上面提到的overlapping问题,我们在将小样本学习从图像域扩充到视频域的时候引入virtual embodied agent,通过学习虚拟人物的动作来帮助我们学习理解现实世界中的视频,然后基于这个想法提出了新的Embodied one-shot learning setting;
  2. 我们构建并提供了UnrealAction dataset,用于支持上面提到的Embodied one-shot learning的学习和测试;
  3. 针对小样本学习中target classes中标注数据极度缺乏的情况,我们提出一种简单而有效的视频段增强(video segment augmentation)方法;

接下来我会依次对以上几点进行介绍(〃''〃)

三 新的小样本学习任务:Embodied One-Shot Video Recognition

3.1 Learn from actions of virtual embodied agent

针对上面提到的overlapping问题,我们的key idea是通过学习虚拟的智能人体的动作来理解现实世界中的动作类别。

生成出来的动作就可以很自然地帮助我们学习和理解现实世界中的视频,而且理论上我们可以用一个动作生成大量不同人体不同背景的视频,为模型训练提供样本。

这样做的另一个好处是由于我们生成的虚拟视频扮演的动作都是非常纯粹的,这样就可以在一定程度上避免掉开头我们提到的overlapping的问题。

3.2 UnrealAction dataset

我们通过在Unreal Engine4虚拟引擎中构建虚拟世界,然后让agent在里面perform不同的目标动作的方式生成大量的视频。

以下是UnrealAction dataset的示意图:


目前数据集从数量上来看还是挺小的,但是可以作为一个test benchmark。

3.3 Embodied One-shot Video Recognition

我们提出了一个新的小样本视频动作识别的setting:embodied one-shot video recognition

然后又为这个新的setting提出了两种具体的任务定义:embodied one-shot domain adapatation以及embodied one-shot transfer recognition;

左边:source domain,右边:target domain,黑色:真实视频动作,紫色:虚拟视频动作

四 视频数据增强方法: Video Segment Augmentation Method

受到潜意识广告实验的启发,我们提出了一种很简单但是有效的视频数据增强方法来处理小样本学习情况下目标视频标注数量非常少的情况。

简单来说,我们的想法就是给定一个待增强的视频(probe video),其中该视频的动作为c,我们用一段帧数非常少的视频片段(gallery video segment)来替换原视频中的等长的视频片段,来生成新的视频augemented video。由于被替换的视频片段非常的短,我们可以认为生成的视频动作仍然保持原来的c不变。

用这种方式我们就可以为原本有限的数据集进行数据增强的操作。


下面展示的这个是具体如何来选择gallery video segment来保证生成的视频在时序和语义空间上都尽量保持原有的连贯性:


这个算法的细节以及实验部分我就不打算在这里仔细介绍了,感兴趣的同学欢迎看看原文哇~

五 写在最后

是我写的很认真的一篇论文博客啦,嘻嘻~~

之前纠结了很长一段时间要不要写这篇博客,后来想了想还是写叭,可能会很多做的不够好的地方,欢迎大家指正啦!

如果你对这篇文章感兴趣,欢迎下载我们的论文and数据集,感谢~

最后,感谢所有帮助我过的老师同学们,并且希望自己多多努力!

2019还有不到2个月就要结束了,希望今年能再做一些工作,与大家共勉。

上一篇 下一篇

猜你喜欢

热点阅读