从概率角度看3DCNN中时空融合2020-06-23
今日论文:Spatiotemporal Fusion in 3D CNNs: A Probabilistic View来自cvpr2020
主要工作:
1)我们第一个从概率角度研究3Dcnn网络进行时空融合。我们提出的概率方法能够高效地分析各种时空融合策略。并且能对时空融合进行网络层级别,细粒度分析
2)我们提出Variational DropPath,以端到端的形式来构建概率空间。
3)根据概率空间能够构建新的融合策略,在四个动作识别的数据集上取得state-of-the-art
4)从概率空间得到的时空融合提示具有通用性
研究背景:
在视频应用中,如动作识别,时空融合都是其中的一个重要组成部分。在深度学习中时空融合一般分为两类:1)采用两流来分别提取时间和空间特征,再加以融合。2)在单流3DCNN中融合空间和时间特征。他们根据经验设计的一种或几种融合策略得出结论。每个融合策略都是固定的,预先定义的,并且在各自单独的网络中评估,从而导致对融合策略的分析是网络层次的。现有的解决方案很难对大量的融合策略进行评估,也不能支持细粒度和网络层级别的分析。
解决方案:
本文提出从概率角度来分析3Dcnn网络的时空融合。本文将时空融合分析作为一个优化问题,目标是找到一个概率空间,在这个概率空间中,每个单独的融合策略被视为一个随机事件,并具有有意义的概率。概率空间满足以下要求。1,可以从概率空间低成本地得到每个时空融合策略(事件)的性能,因此我们可以基于该性能来评估不同融合策略,而不必分别训练每个策略;2,能够通过该概率空间推断出时空融合的局部性偏好,从而可以对融合策略进行逐层的细粒度分析。
图1:3Dcnn中的时空融合。(a)已经提出的融合策略,这些方法是根据经验设计的,并通过训练每个相应的网络来评估。(b)提出的概率方法。我们提出通过寻找一个概率空间来分析时空融合,在这个概率空间中,每一种融合策略都被视为具有一定概率的随机事件。首先介绍了一种基于基本融合单元的模板网络来支持多种融合策略。然后我们将所有可能的融合策略嵌入到由融合策略的后验分布定义的概率空间中。因此,可以评估/分析各种融合策略,而不需要单独的网络训练来获得网络级观察和层级偏好。这里的S、ST和S + ST是基本的融合单元,分别由2D、3D和2D/3D卷积的混合实例化。
本文在3Dcnn中通过dropout构造概率空间。如图1我们首先设计一个基于基本融合单元的模板网络。我们将基本单位定义为3Dcnn中不同形式的时空卷积,如空间、时空和空间、时空卷积。概率空间可以由模板网络中不同子网络(融合策略)上的后验分布及其相关核权值来定义。我们提出了Variational DropPath,通过变分分布来应用在基本融合单元上的dropout操作的概率。然后通过最小化变分分布和后后分布之间的Kullback-Leibler (KL)散度来推导后知分布。一旦得到这种分布,我们就可以从模板网络中获得各种融合策略。这些融合策略无需训练就可以直接评估。此外,我们还利用推导出的概率空间来提供在时空融合网络层级别的偏好。
方法
首先可以吧L层的3D表示为三元组{(l; v; u)}_L.其中l为层数index, v是一个l-1维二值化向量,表示前面l-1层中那一层特征被用到,u为基本融合单元
所以概率空间定义为
(怎么才能让他不换行啊要疯了。)
在此概率空间中,将各种融合策略及其相关核权值成对采样,无需经过训练即可直接进行评价。只有通过网络测试才能获得一种策略的总体性能。因此,满足概率空间的第一个条件,现在要解决的主要工作就是概率测度函数
我们提出了一种变分贝叶斯方法来逼近它。首先建立了基于基本融合单元的模板网络,然后我们采用变分分布来分解模板网络中的基本单元为weight 乘dropout率。然后我们进一步提出了v-DropPath使我们能够通过训练模板网络来最小化变分分布和后置分布之间的KL距离所以1式就变成了
然后我们通过最小化KL散度来近似后验分布
Q()是一个变分分布,我们把它分解为
其中M()=0,1 表示在模板网络的第l层启用/禁用来自第i层和融合单元u的特征优化公式3就相当于优化
这个公式说明可以通过训练一个3Dcnn模板网络来优化后验概率分布
一旦得到后验分布所定义的概率空间,我们就可以在网络层面和layer层面上非常有效地研究时空融合
1)网络层面
我们通过直接采样一组策略和权重对来研究融合策略。每个融合策略的有效性可以很容易地从验证数据集上的测试性能中得到。由于采样和评估都是轻量级的,因此我们的方法可以大大扩展用于分析的融合策略的数量和形式
2)layer层面
在公式4中我们对不同融合策略进行重参数化。由此可以推导出各层融合单元的边缘概率为
这个公式表明融合策略的边缘分布能够从dropout概率推导出来。
实验:
图三为我们的方法设计的模板网络的基本结构。模板网络是由二维和三维混合卷积组成的密集连接网络。我们选择U = {S, ST, S+ ST}因此,在我们的方法中探索的融合单元在概念上包括在大多数其他的融合方法中,以进行公平的比较。消融实验
对于第二点,我们在不同数据集上根据对采样情况以及边缘分布的观察,总结得到融合偏好的规律,并将其应用到不同的主干网络中去,发现能够给绝大多数主干网络带来可观的性能提升,说明我们的分析方法可以帮助得到泛化性能非常好的观察与规律。具体如表2
泛化性:
另附上
微软研究院的文章
https://mp.weixin.qq.com/s/qZOCUuLt98fTpstGpC1ilg