EECV2018 Image Super-Resolution
abstract
卷积神经网络(CNN)深度对于图像超分辨率(SR)至关重要。但是,我们观察到图像SR的更深层网络更难以训练。低分辨率输入和特征包含丰富的低频信息,这些信息在信道上被平等对待,因此阻碍了CNN的表示能力。为了解决这些问题,我们提出了非常深的残留信道关注网络(RCAN)。具体而言,我们提出残余残余(RIR)结构以形成非常深的网络,其由具有长跳过连接的若干残余组组成。每个残差组包含一些具有短跳过连接的残余块。同时,RIR允许通过多个跳过连接绕过丰富的低频信息,使主网络专注于学习高频信息。此外,我们提出了一种通道关注机制,通过考虑通道之间的相互依赖性来自适应地重新调整通道方面的特征。大量实验表明,我们的RCAN可以在最先进的方法中实现更好的准确性和视觉改进。
1 Introduction
我们解决了在低分辨率(LR)对应物(通常称为单图像超分辨率(SR)[12])下重建精确高分辨率(HR)图像的问题。 Image SR用于各种计算机视觉应用,从安全和监视成像[13],医学成像[14]到物体识别[8]。 然而,图像SR是一个不适定的问题,因为对于任何LR输入存在多个解决方案。 为了解决这样的逆问题,已经提出了许多基于学习的方法来学习LR和HR图像对之间的映射。
图像SR可以被视为一个过程,我们尝试恢复尽可能多的高频信息。 LR图像包含大多数低频信息,可以直接转发到最终的HR输出,不需要太多的计算。 然而,领先的基于CNN的方法(例如,EDSR [10])将从原始LR输入中提取特征并且同等地处理每个信道方式特征。 这样的过程会浪费不必要的计算以获得丰富的低频特征,缺乏跨特征通道的判别性学习能力,最终阻碍深度网络的代表性能力。
为了实际解决这些问题,我们提出了一个残余信道关注网络(RCAN)来获得非常深的可训练网络,并同时自适应地学习更有用的信道方面特征。为了简化非常深的网络(例如,超过400层)的训练,我们提出剩余残差(RIR)结构,其中残差组(RG)用作基本模块,并且长跳过连接(LSC)允许残差学习。粗糙的水平。在每个RG模块中,我们使用短跳过连接(SSC)堆叠多个简化的残余块[10]。长短跳过连接以及残余块中的快捷方式允许通过这些基于身份的跳过连接绕过丰富的低频信息,这可以简化信息流。为了进一步发展,我们建议通道关注(CA)机制通过对特征通道之间的相互依赖性建模来自适应地重新缩放每个通道方面的特征。这种CA机制允许我们提出的网络专注于更有用的渠道并增强辨别学习能力。如图1所示,与最先进的方法相比,我们的RCAN获得了更好的视觉SR结果。
总的来说,我们的贡献是三方面的:(1)我们提出了非常深的残余信道关注网络(RCAN),用于高精度图像SR。 我们的RCAN可以比以前的基于CNN的方法更深入,并获得更好的SR性能。 (2)我们提出剩余残差(RIR)结构来构建非常深的可训练网络。 RIR中的长短跳过连接有助于绕过丰富的低频信息,使主网络学习更有效的信息。 (3)我们提出通道关注(CA)机制,通过考虑特征通道之间的相互依赖性来自适应地重新缩放特征。 这种CA机制进一步提高了网络的表征能力。
2 Related Work
在计算机视觉领域已经研究了许多图像SR方法[1-11,22]。 注意机制在高级视觉任务中很流行,但在低级视觉应用中很少被研究[23]。 由于篇幅限制,这里我们重点关注与基于CNN的方法和注意机制相关的工作。
Deep CNN for SR. 先驱工作由Dong等人完成,他提出了SRCNN用于图像SR,并且在以前的工作中取得了卓越的性能。 通过引入残差学习来缓解训练难度,Kimet提出了20层的VDSR和DRCN,并且在准确性方面取得了显着的提高。 Tai等人后来在MemNet中引入了DRRN和内存块中的递归块。 这些方法必须首先将LR输入内插到所需的大小,这不可避免地会丢失一些细节并大大增加计算量。
从原始LR输入中提取特征并在网络尾部升级空间分辨率,然后成为深度架构的主要选择。建议采用更快的网络结构FSRCNN来加速SRCNN的训练和测试。 Ledig等人介绍了ResNet为图像SR构建了一个更深层次的网络SRResNet。他们还提出了具有感知损失的SRGAN和用于照片拟真SR的生成对抗网络(GAN)。然后在EnhanceNet中引入这种基于GAN的模型,其结合了自动纹理合成和感知损失。虽然SRGAN和Enhancenet可以在一定程度上缓解模糊和过度平滑的伪像,但是它们的预测结果可能不会被忠实地重建并产生令人不愉快的伪像。通过删除传统剩余网络中不必要的模块,Lim等人提出了EDSR和MDSR,它们实现了显着的改进。然而,这些方法中的大多数具有有限的网络深度,这已被证明在视觉识别任务中非常重要并且可以达到大约1,000层。简单地在MDSR中堆叠残余块,非常深的网络很难实现改进。此外,这些方法中的大多数同等地处理通道方面的特征,阻碍了对不同类型特征的更好的辨别能力。
Attention mechanism. 通常,注意力可被视为将可用处理资源的分配偏向于输入的最具信息性的组件的指导。 最近,已经提出了试验性工作以将注意力应用于深度神经网络,范围从图像中的定位和理解到基于序列的网络。 它通常与门控功能(例如,sigmoid)组合以重新缩放特征图。 王等人。 提出了用于图像分类的残留注意网络,具有主干和掩模注意机制。 胡等人。 提出了挤压和激励(SE)块来模拟通道关系,以获得图像分类的显着性能改进。 然而,很少有人提出研究注意力对低级视觉任务(例如图像SR)的影响。
在图像SR中,高频通道特征对于HR重建更具信息性。 如果我们的网络更加关注这种渠道特征,那么应该有希望获得改进。 为了在非常深的CNN中研究这种机制,我们提出了非常深的剩余信道关注网络(RCAN),我们将在下一节中详细介绍。
3 Residual Channel Attention Network (RCAN)
3.1 Network Architecture
2如图2所示,我们的RCAN主要由四部分组成:浅特征提取,残差残差(RIR)深度特征提取,高级模块和重建部分。 我们将I(LR)和I(SR)表示为RCAN的输入和输出。我们只使用一个卷积层(Conv)从LR输入中提取浅层特征F0
图片.png
H(sf)指一层卷积操作。
图片.png
H(RIR)指的是残差结构中的残差结构,包含了很多个参差模块(RG)据我们所知,我们提出的RIR到目前为止达到了最大的深度,并提供了非常大的感受野大小。 因此我们将其输出视为深度特征,然后通过上采样模块
图片.png
有几种选择可用作高级模块,例如反卷积层(也称为转置卷积),最近邻上采样+
卷积和ESPCN这种后升级策略已被证明对于计算复杂性和实现比预扩展SR方法(例如,DRRN和MemNet)更高的性能更有效。 然后通过一个Conv层重建升级的特征
图片.png
H(REC)是指重建层。
超分辨loss有l1,l2,gan的loss以及纹理结构perceptual loss,为了保证有效性,选择了L1 loss
图片.png
3.2 Residual in Residual (RIR)
我们现在提供有关我们提出的RIR结构的更多细节(参见图2),其中包含G残余组(RG)和长跳过连接(LSC)。 每个RG还包含具有短跳过连接(SSC)的B个剩余信道关注块(RCAB)。 残余结构中的这种残余允许为具有高性能的图像SR训练非常深的CNN(超过400层)。
已经证明堆叠残余块和LSC可以用于构建深CNN。 在视觉识别中,可以堆叠残余块以实现超过1,000层的可训练网络。 然而,在图像SR中,以这种方式构建的非常深的网络将受到训练困难并且难以实现更多的性能增益。 受到SRRestNet和EDSR以前的工作的启发,我们提出了残差群(RG)作为更深层网络的基本模块。 第g组中的RG表示为
图片.png
图片.png
LSC不仅可以简化RG之间的信息流,而且只能使RIR以粗略的级别学习残差信息。
如第1节所述,LR输入和功能中有大量丰富的信息,SR网络的目标是恢复更多有用的信息。 可以通过等价过连接来绕过丰富的低频信息。 为了进一步迈向残差学习,我们在每个RG中堆叠B个残余信道注意块。 第g个RG中的第b个残留信道关注块(RCAB)可以表示为
图片.png
图片.png
通过LSC和SSC,在训练过程中更容易绕过更丰富的低频信息。 为了进一步迈向更具辨别力的学习,我们更加关注通道注意力的频道方式特征重新调整。
3.3 Channel Attention (CA)
以前基于CNN的SR方法同等地处理LR通道特征,这对于实际情况不灵活。 为了使网络专注于更多信息功能,我们利用特征通道之间的相互依赖性,从而产生通道关注(CA)机制(参见图3)。 如何针对每个渠道特征产生不同的关注是关键步骤。 这里我们主要有两个问题:第一,LR空间中的信息具有丰富的低频和有价值的高频成分。 低频部分似乎更平坦。 高频分量通常是区域,充满边缘,纹理和其他细节。 另一方面,Conv层中的每个滤波器都使用本地感受域进行操作。 因此,卷积后的输出无法利用本地区域之外的上下文信息。
基于这些分析,我们通过使用全局平均池来将通道方式的全局空间信息转换为通道描述符。 如图3所示,设X = [x 1,...,xc,...,x C]为输入,其中C特征映射的大小为H×W。信道方向统计量z∈RC 可以通过在空间维度H×W上收缩X来获得。 然后z确定z的第c个元素
图片.png
其中Xc(i,j)是第c个特征Xc的位置(i,j)处的值。 HGP(·)表示全局池功能。 这样的频道统计可以看作是本地描述符的集合,其统计有助于表达整个图像[23]。除了全局平均汇集,这里还可以引入更复杂的聚合技术。
为了通过全局平均池化从聚合信息中完全捕获通道依赖性,我们引入了一个门控机制。 如[23]中所讨论的,门控机制应该满足两个标准:首先,它必须能够学习通道之间的非线性相互作用。 其次,由于可以强调与单热激活相反的多个通道特征,因此必须学习非互斥排斥关系。 在这里,我们选择利用sigmoid函数的简单门控机制
图片.png
为了通过全局平均池化从聚合信息中完全捕获通道依赖性,我们引入了一个门控机制。 门控机制应该满足两个标准:首先,它必须能够学习通道之间的非线性相互作用。 其次,由于可以强调与单热激活相反的多个通道特征,因此必须学习非互斥排斥关系。 在这里,我们选择利用sigmoid函数的简单门控机制。
图片.png
其中Sc和Xc是第c个通道中的缩放因子和特征映射。 通过频道注意,RCAB中的残余分量被自适应地重新缩放。
3.4 Residual Channel Attention Block (RCAB)
如上所述,残差组和长跳过连接允许网络的主要部分集中于LR特征的更多信息组件.Channelattention提取信道之间的信道统计,以进一步增强网络的辨别能力。同时,启发 通过[10]中残差块(RB)的成功,我们将CA集成到RB中并提出残余信道注意块(RCAB)(参见图4)。 对于第g个RG中的第b个RB,我们有
图片.png
图片.png
我们在[10]中进一步展示了我们提出的RCAB与残差块(RB)之间的关系。 我们发现MDSR和EDSR [10]中使用的RB可以被视为我们RCAB的特殊情况。 对于MDSR中的RB,没有重新缩放操作。 它与RCAB相同,其中我们将R g,b(·)设置为常数1.对于在EDSR中具有恒定重新缩放(例如,0.1)的RB,它与RCAB相同,其中R g,b(·)设置为 为0.1。 尽管引入了通道特征重新缩放以训练非常宽的网络,但是在EDSR中不考虑通道之间的相互依赖性。 在这些情况下,不考虑CA.
基于残余信道关注块(RCAB)和RIR结构,我们构建了一个非常深的RCAN,用于高精度图像SR,并且与以前的领先方法相比,实现了显着的性能改进。 关于每个提议组件的影响的更多讨论见4.2节。
3.5 Implementation Details
现在我们指定我们提出的RCAN的实现细节。 我们在RIR结构中将RG编号设置为G = 10。 在每个RG中,我们将RCAB编号设置为20.我们将3×3设置为所有Conv层的大小,除了通道缩减和通道扩展中的内核大小为1×1。 对于内核大小为3×3的Conv层,使用零填充策略来保持大小固定。 浅层特征提取和RIR结构中的Conv层具有C = 64个滤波器,但通道缩减中除外。 通道缩减中的Conv层具有C / r = 4滤波器,其中缩减率r设置为16.对于放大模块H UP(·),我们遵循[10,17,33]并使用ESPCNN [33]来升高 粗分辨率功能很好。 最终的Conv图层有3个滤镜,因为我们输出彩色图像。 同时,我们的网络也可以处理灰色图像。
总的来说,创新度不高