在Vid4上突破28dB大关！视频超分新的里程碑：IconVSR

2020-12-14 本文已影响0人我爱计算机视觉

作者 | Wangsy

编辑 | CV君

报道 | 我爱计算机视觉（微信id：aicvml）

BasicVSR:The Search for Essential Components in Video Super-Resolution and Beyond

BasicVSR:在视频超分组件上的搜索和超越

论文：https://arxiv.org/pdf/2012.02181.pdf

作者单位：南洋理工大学、腾讯PCG应用研究中心、香港中文大学-商汤科技联合实验室

看点

本文把改进的双向循环神经网络加入进了超分架构，在Vid4测试集上突破了28dB，亮点如下：

1.本文把视频超分（VSR）看做由四个基本构件组成：传播、对齐、融合、上采样。通过对这些组件的重用和部分修改，构建了一个BasicVSR模型。

2.对BasicVSR进一步进行扩展，添加了一个信息再填充机制和一个耦合传播方案，实现了更好性能的IconVSR，达到了SOTA。

BasicVSR

BasicVSR采用经典的双向循环神经网络。上采样模块U包含卷积和Pixel-shuffle。S、W、R分别为流估计模块、空间扭曲模块和残差块。

传播

现有的传播可分为三大类：局部传播、单向传播和双向传播。

局部传播：滑动窗口方法在局部窗口中使用LR进行局部信息恢复，由于忽略了远处的帧，从而限制了恢复效果。

上图中K表示将测试集分为几个单独的片段去供局部窗口处理，虚线为全局窗口，表明远距离帧有利于信息的恢复。

单向传播：第一帧除了自身之外不从视频序列接收信息，而最后一帧从整个序列接收信息。这种不平衡的方法使得靠前的帧的重建效果不佳。

可以看出，更靠前的帧的重建效果越差。（但是对于最后高出虚线的那部分，本文没有给出解释）

双向传播：对比上述，BasicVSR采用双向传播的方式。双向循环网络的前后传播如下（双向传播就无法做到实时超分了，需要把所有的帧都输入才能开始输出，这是双向的弊端，本文未提）

对齐

主流的对齐可分为三大类：无对齐，图像对齐和特征对齐。

无对齐：在实验中去掉了BasicVSR中的空间对齐模块。在这种情况下，我们直接连接不对齐的特征进行恢复。接收场相对较小的卷积等局部操作在从相应位置聚集信息时效率低下。PSNR下降了1.19db。（RRN没有采用对齐，并且是单向传播，PSNR值只差了0.27dB，此处数据需要验证）

图像对齐：图像对齐通过计算光流和在恢复之前扭曲图像来执行对齐。我们在BasicVSR上比较了图像扭曲和特征扭曲。由于光流估计的不精确性，扭曲后的图像不可避免地会出现模糊和不正确的问题。PSNR下降了0.17db。

特征对齐：对比上述，Basic采用光流对特征进行扭曲配准，然后输入进多个残差块进行细化。

其中，R表示多个残差块。

聚合和上采样

采用多个卷积作为聚合模块，Pixel-shuffle作为上采样模块。

IconVSR

以BasicVSR为主干，引入了两个新的组件：信息再填充机制和耦合传播（IconVSR），以减少传播过程中的错误积累，促进信息聚合。

信息再填充

如上图(a)所示，使用额外的特征提取器从输入帧及其相邻帧的子集中提取深度特征。然后将提取的特征与对齐后的特征通过卷积进行融合

耦合传播

通过耦合传播，正向传播分支接收来自过去和未来帧的信息，从而获得更高质量的特性。

此外，由于耦合传播只需要改变分支连接，因此可以在不引入计算开销的情况下获得性能增益。（增加了input的chanel不增加计算开销吗?）

实验

数据集与设置

REDS的其中一部分作为测试集和验证集，其余和Vimeo-90K同时作为训练集。

对测试集使用BI和BD两种方式进行测试。使用预训练的SPyNet和EDVR-M作为流量估计模块和特征提取器。损失使用Charbonnier损失。

消融实验

对IconVSR两个提出的组件的消融实验

量化评估

END