论文笔记 |《Detail-revealing Deep Vid

2019-12-04 本文已影响0人温素年

论文地址：https://arxiv.org/abs/1704.02738

多帧SR与单帧相比，最主要的两个问题：
(1) 如何对齐多个帧以构造精确的对应关系；
(2) 如何有效地融合图像细节以获得高质量的输出。

1 亚像素运动补偿（SPMC）

如果想要把图像a warp到图像b上面去，则需要b到a的光流。因为要对b进行遍历，去a里面找插值的数据。

图像的降质模型（由第0帧HR变换到第i帧LR）：

上述公式是从第0帧warp到第i帧，需要的是从i到0的光流；然而大多数方法是把图像从第i帧对齐到第0帧，应该使用0到i的光流。

后面一堆公式还没看懂是啥意思……

2 Method

方法框架分为三个部分：
(1) 运动估计：估计帧与帧之间的运动场；
(2) 运动补偿：通过运动补偿对齐帧；
(3) 细节融合：放大图像尺寸、增加图像细节。

2.1 运动估计
输入两帧LR图像，输出一个运动场：

其中，运动估计（ME）网络使用的是VESPCN
中的MCT模型。

2.2 SPMC层
同时实现亚像素运动补偿和分辨率增强。

(1) 采样网格生成器

相当于构建了一个坐标的对应关系。对于原图中第p个像素而言，(x_p, y_p)是它在原图中的坐标，(u_p, v_p)是它的位移，即光流估计的结果，a是放大倍数，(x^s_p, y^s_p)是它在结果图中对应的坐标。

(2) 对网格进行填充

遍历网格中的像素，像素值为LR图像中像素的加权和，权值由像素之间的距离决定。M(·)函数可取（在一遍博客中看到的，相当于双线性插值）：

2.3 细节融合网络
网络的设计考虑到以下几点：
(1) 输入图像J_i^H是HR尺度，需要考虑计算量的问题；
(2) J_i^H图像很稀疏，大多数是用0填充的，所以需要网络有足够大的感受野；
(3) 生成的HR图像需要与第0帧的结构保持一致，但是过度强调第0帧可能会导致没有利用到其他帧中的信息。

针对上述前两点设计了编解码的结构，网络的结构为：编码->LSTM模块->解码。

网络结构

2.4 训练步骤

先训预练运动估计（ME）网络，运动估计损失：

再预训练SR网络，SR损失：

3.最后联合训练整体网络，总损失：

3 Experiment

从六个方面实验证明了方法的有效性：

SPMC层的有效性：SPMC层 vs. 先warp在bicubic插值
细节融合的有效性：3张同样的输入 vs. 3张不同的输入
细节融合网络的输入：输入JiH vs. 输入JiH 加 I0L的bicubic（或0填充上采样）
和其他视频SR方法比较
和其他单帧SR方法比较
真实世界视频实例

论文笔记 |《Detail-revealing Deep Vid

1 亚像素运动补偿（SPMC）

2 Method

3 Experiment

猜你喜欢

热点阅读