深度学习-推荐系统-CV-NLP图像处理与计算机视觉-UCAS2018-论文分享机器学习与计算机视觉

ICCV2019超分变率专题——EBRN

2019-11-12  本文已影响0人  天森佛罗调参侠

EBRN是ICCV2019会议上关于单幅图像超分辨率(SISR)的论文,文章认为图像中低频和高频信息的复杂度是不一样的,应该采用表征能力不同的的模型来分别处理。基于这种理念提出了一种嵌入块残差网络--EBRN。具体做法是,采用模型中不同的模块恢复不同频率的信息,对于低频信息,采用网络中浅层的模块进行恢复,对于高频信息采用深层模块进行恢复。

1.简介

SISR旨在从LR中恢复出丢失的结构和纹理信息。深度神经网络和循环神经网络在该领域取得了较好的研究成果,而基于深度模型的方法没有考虑图像的频率特性。文章认为,自然图像的特征是由不同的信息频带组成,每个频带包含不同复杂度的结构和纹理。在包括SISR在内的图像恢复任务中,每个波段信息的恢复都需要一个特定的恢复函数。考虑到不同频段的特征分布不同,低频信息由更简单的结构和纹理组成,需要更简单的函数进行恢复;高频信息由复杂的结构和纹理组成,需要更复杂的恢复功能。

现有的基于深度模型的方法无法区分图像的频率。这些模型中每一层的任务是根据前一层的特征恢复所有的信息。模型复杂度与频率的不一致性是制约深度CNN方法性能的关键问题。基于以上分析,提出一种EBRN网络。通过采用复杂度不同的子网对不同频率的纹理进行恢复。

本文主要贡献主要有三点:

1.提出图像中不同频率的信息需要通过不同复杂度的模型进行恢复。在坏的情况下,较低频率的信息可能会被较深的模型过度恢复,而较浅的模型会对较高频率的信息恢复不足。

2.提出了一种块模块(BRM),它在将难以恢复的信息传递给更深层次的模块的同时,尝试恢复图像的结构和纹理。这使得每个BRM都能聚焦于适当频率的信息,这对于保证模型复杂度与图像频率的相关性非常重要。

3.提出了一种嵌入多个BRMs的新技术,可以有效地提高基于各模块输出的最终重建质量。我们也以经验证明所提出的模式优于最先进的。

2.相关研究工作介绍

当前超分辨问题的研究方向有以下几个方面:       

 通过优化CNN模型框架,介绍了基于深度学习的超分辨率经典模型,包括SRCNN、VDSR、DRCN、EDSR等,这些模型都是基于优化PSNR/SSIM的;

基于优化损失函数:较为常见的有L1、L2,以及后来的perceptual loss 和adversarial loss.介绍了基于优化感知损失的SRGAN 、SFTGAN模型。            

基于扩大放大倍数上,x2,x3,x4的研究工作已经快接近瓶颈,x8放大成为研究热点。

通过文献阅读,当前没有人研究模型复杂度和图像频率信息,本文就是基于此开展研究的。

3.EBRN网络架构

3.1BRM

BRM是模型中最基本的模块,它将数据量分为高分辨流和反向投影流。高分辨流主要用于恢复低频的结构和纹理信息,反向投影流则计算高频信息,每个BRM都堆叠在它的一个先行BRM的反向投影流上。每一个BRM负责较低频率的信息恢复,将较高频率的信息传递给较深的BRMs。

所有的卷积层都使用了3 x3 x64个卷积核。除向下采样外,其他层的步长为1x1,填充大小为1x1。下采样层的参数是根据上标度因子设置的,即,则输出特征图的空间大小与输入特征图相同。局部残差学习阶段是为了鼓励训练的快速收敛,就像在其他残差学习方法中一样。通过这样的设计,我们从经验上发现,超分辨率流可以恢复较低频率的信息,而难以恢复的较高频率的信息会传递给后续的模块。

3.2EBRN网络架构

在第一个BRM之前,提出了一个初始特征提取模块来表示特征映射的形状。在该模块中,第一个卷积层生成256通道的feature map,然后将两个卷积层堆叠在一起,每个卷积层输出64通道的feature map。这些层的卷积核大小为3×3。

将第一个BRM叠加在初始特征提取模块的输出上,将第二个BRM连接到第一个BRM的反向投影流的输出上,以此类推。每个BRM负责恢复前一个BRM的反向投影流产生的剩余特征图。请注意,最后一个BRM只包含丢弃反投影流的超分辨率流

这样,较低频率的信息只通过模型复杂度较低的较浅的BRMs。这部分信息的过拟合问题是可以避免的。另一方面,更高频率的信息被传输到模型复杂度更高的BRMs中,从而缓解了欠拟合问题。

另一个重要的观点是,我们将某些频率的信息与具有适当复杂度的子网联系起来。它不需要适合一个简单的模型在复杂的纹理,也不适合一个复杂的模型在简单的结构。因此,这些子网络中的参数数量可以显著减少,但对相应的信息保持较高的恢复性能。

f:卷积函数

这个方式,输出更加平滑。

重建层:此外,为了避免训练中的梯度消失问题,我们建议将每个BRM的输出直接连接到图像重建模块。该设计有两个优点:1)缩短了深度BRMs的误差传播方式,提高了训练的收敛速度; 2)模型的中间特征映射被重用进行重构。重构子网采用3×3×64个卷积核,最后一层生成3通道RGB图像。

4.EBRN与其他网络的比较

4.1EBRN 和残差网络

残差网络最近在各种计算机视觉任务中表现优异。在SISR中,第一个使用残差学习思想的模型是VDSR,它取得了优于竞争对手的性能。与传统CNN模型相比,残差网络的优势在于残差学习促进了网络中特征的传输,缓解了梯度消失问题,使得网络更容易训练。

在这项工作中,我们利用了不同于传统的残差网络的残差学习思想。例如:

①由于BN层限制了特征归一化过程中中间特征的范围灵活性,所以本文模型没有使用batch normalization (BN)层。

②另一个重要的区别是残差是如何计算的以及残差所传达的信息。在残差网络中,剩余信号是输入和输出的差值。在该模型中,一种残差信号是某一频率范围内的信息;残差信号的另一种类型是原始LR特征与反投影LR特征之间的差异。在每一个BRM中,第二个残差信号对于SR是很重要的,因为它明确地传达了哪些信息需要后续BRM恢复。

4.2EBRN vs. Deep Back-Projection Network

DBPN:该方法利用迭代的上下采样层,为每个阶段的投影误差提供了误差反馈机制。误差可以有效地提高模型中深层的恢复效果。

两种方法的不同之处在于:

①在上投影单元和下投影单元中,DBPN将LR残差直接映射到HR空间,而我们的模型中LR残差包含更高频率的信息,这些信息被反馈到更深的子网络中进行恢复;

②DBPN利用LR残差和HR残差,目标是每个上、下投影单元尽量减小残差,而我们的方法将残差信号与不同频率的信息联系起来,每个BRM负责恢复相应的信息。动机的不同导致模型的参数比DBPN少,但性能比DBPN有提高。

5.实验验证

training: DIV2K,一个高质量(2K分辨率)图像恢复数据集,包含800张训练图像、100张验证图像和100张测试图像。

up-scaling factors: ×2, ×4,×8

testing: Set5 [4], Set14 [46], BSDS100, Urban100, Manga109

激活函数:PRelu

Optimization:Adam

learning rate:10−4

5.1不同频率范围的信息应该由不同复杂度的模型处理的动机。

为了验证这一点,我们在图6中演示了不同频段上不同brm输出的能量分布。利用小波变换的不同能级系数,计算了能量在不同频段的分布。结果表明,浅层BRMs的输出包含更多的低频信息,而深层BRMs的输出则倾向于恢复更多的高频信息。

5.2运行速度、最优BRM数验证

5.3验证了本文方法使用参数的数量和PSRN效果

5.4效果对比

上一篇下一篇

猜你喜欢

热点阅读