EZ | 在遥感场景分类中使用的暹罗卷积神经网络 | 01
Siamese「0」 Convolutional Neural Networks for Remote Sensing Scene Classification
Xuning Liu, Yong Zhou, Jiaqi Zhao, Member, IEEE, Rui Yao, Member, IEEE, Bing Liu, and Yi Zheng
索引项
分类、卷积神经网络、深度学习、遥感。
0. 摘要
卷积神经网络(CNNs)已经展现出很强的特征表示能力,这就为该深遥感图像的场景分类提供了新的途径。即使我们可以获得大量的卫星图像,但我们缺少丰富的标签信息,这仍然是遥感领域的一个重要问题。另外,遥感的一些数据集也有其自身的局限性,比方说,场景分类的规模都很小,图像的多样性也不够。为了缓解现有的问题带来的影像,这篇文章中提出了一个把CNN识别和验证模型结合在一起的暹罗神经网络。在CNN的学习特征上附加上度量学习正则化术语( A metric learning regularization term ),提高了暹罗网络的鲁棒性。我们对三种广泛使用的遥感数据集进行性能评估,结果表明,我们的方法比现在通行的办法效果要好。
1. 引言
多亏了卫星技术的快速发展,我们现在很容易获得很多的遥感数据。从一个方面来说,这些数据为我们提供了一个更好了解我们所处世界的绝佳平台,但从另一个方面来说,我们又面临着别的挑战:如何在广泛的应用中更好地解释这些图像?自然灾害检测、地理空间物体检测、环境检测等等领域都要用到这项技术。
特征表示在遥感场景分类中起着重要作用。在过去的几十年中,场景分类的工作主要是依靠手工制作的特征,像是GIST9「1」、尺度不变特征变换「2」或是定向梯度直方图「3」,而这些手工制作的特征需要很强大理论支持,非常耗费时间,又需要相关领域的专业知识「4」,这些问题都限制了特征表达的能力。
2006年,Hinton和Salahutdiintov「5」的深度学习算法取得了突破。卷积神经网络(CNNs)是一种典型的深度学习结构,它能够自动对图像对特征进行学习,不需要手工提取的特征。CNN提取的视觉特征可以提供中高级的信息,这对于高鲁棒性的特征表达不是特别重要。
随着深度学习算法再一次的复兴,CNN在遥感领域取得了巨大成功。
Scott等人「6」研究了在土地覆盖分类任务中使用CNN学习高分辨率(HR)遥感图像的重要性,他们使用CaffeNet「7」、GoogLeNet「8」和ResNet「9」作为比较模型,其中,CaffeNet是AlexNet的一个变体「10」。Cheng等人「11」提出了一种一种全新的遥感场景分类特征表示方法,称其为“卷积特征包( bag of convolutional features )”。这一方法使用现成的CNN从深度卷积特征中生成视觉内容,并着手实现了三种最先进的模型,包括AlexNet,GoogLeNet和VGG-16「12」。Chaib等人「13」把分辨率很高的遥感图像分类中引入了深度特征融合框架,其中VGG-16,CaffeNet和GoogLeNet被用作比较对象。Li等人「14」了一种比较新颖的方法,通过对CNN的多层特征进行整合再进行遥感分类,在文章「15」中的工作提出了一种叫做“贴片分类深度神经网络(patch-sorted deep neural network)”的有效方法,实现合成孔径雷达(SAR)图像分类领域的无监督判别特征学习。Hou等人「16」推出了一种新的有效框架,基于语意信息的规则化,用于靶向SAR图像形成,用来在增强目标散射的同时抑制背景的混沌。Liu等人「17」推出了一种基于深度端对端的学习框架,把它用在全色(Panchromat/PAN)和多光谱(MS)图像分类,这一框架使用特征融合策略引入PAN的空间信息和MS的多光谱信息。Paoletti等人「18」提出了一种3-D CNN,使用光谱信息和空间信息进行高光谱图像的分类,在该网络中实现边界景象策略(border mirroring strategy),用GPU有效、高效地处理图像中的边界区域。Haut等人「19」提出了一种新的深度卷积发生器模型超解析低分辨率(LR)遥感图像,而且是以一种不需要人工介入的方式实现的。这一网络最初可以根据LR输入图像的全局重重建模学习到LR和HR图像之间的关系并且将图像数据控制到目标分辨率。
虽然CNN模型具有强大的特征表示能力,可以提高场景分类任务的性能,但遥感研究领域有几个问题仍然解决不了,首先,由于遥感数据集中带有标记的训练数据数量不多,CNN模型没法充分发挥出它的潜力,其次,遥感图像和其他图像不太一样,数据集中类别相同的部分,需要考虑一些特殊的特征,例如说不同的尺寸、颜色或者角度。最后一点就是遥感数据集中同一类别内部的多样性和和类间相似性有依赖关系,这也是挑战之一。因此,遥感图像判别特征的学习对于场景分类问题取得更好地效果具有重要意义。
Zheng等人「21」推出了一个暹罗网络,对判别特征的嵌入和相似性测量同时进行学习,受他们所做工作的启发,我们在遥感场景分类任务中引入了暹罗卷积神经网络。另,暹罗神经网络在20世纪90年代由Bromley等人首次提出「22」。为了解决签名验证问题,Chopra等人「23」提出了一种基于卷积网络的暹罗结构,用来在人脸识别领域做相似性度量的区别。在文章「24」中有一种完全卷积的暹罗网络模式,通过相似学习对对象进行跟踪。暹罗网络由两个网络构成,接受两个输入,共享权重并由相同的函数链接在一起。这个函数计算每个网络的特征表示之间的某个度量量,显示两个输入的互相关性。此外,共享权重可以确保两个网络各自映射一个相似度很高的图像,结果不会分布到特征空间中不同高度的位置(这是因为两个网络的相似性)。据我们所知,这种方法在遥感场景分类领域用的不多。
CNN结构有两种主要类型:鉴别(identification)模型和验证(verification)模型。鉴别模型接收图像并预测它的身份标签,验证模型则接收一对图像并衡量两个图像的相似性。验证模型可以让同一类别的图像更接近,不同类的图像在特征图像中则离得很远。鉴别模型考虑了数据集中所有图像的关系21,这就弥补了验证模型的缺点。基于这些属性,我们的暹罗CNN模型能够利用两方面的优势来学习判别特征的嵌入。除了最大限度减少鉴别模型和验证模型的交叉熵损失之外,我们还对通过CNN学习的特征强加了一个正则化表达,这使得暹罗网络鲁棒性更强。
总而言之,我们提出的方法做出的主要贡献如下:
1)我们采用了迁移学习方式,迁移自ImageNet数据集25跑的CNN模型,用以消除遥感数据集有标记训练数据有限的问题,而后,我们还对整个模型做了微调,来更好地适应遥感图像。
2)我们把结合了验证和鉴别模型来学习判别特征表示的暹罗网络应用在遥感场景分类的任务上,在测试期间,只使用了微调识别模型进行分类。
3)为了对遥感图像的判别特征表示进行学习,可以明确地对CNN的特征加入正则化的项,因此,对相同场景进行描述的图像应该尽可能的接近,而把不同场景进行描述的图像散布在特征空间中距离较远的地方。
这篇文章的其余部分结构如下:第二节之中描述了我们所提出的模型的初步知识和一些细节,第三节则介绍了我们的实验结果,第四部分中,我们简要地总结了此篇论文。
「0」 关于 Siamese 一词翻译的考虑:Siamese 译为 暹罗,暹罗是泰国的古称,19世纪英国商人在泰国发现了一个(或者说是…两个?)孪生连体人,并将其“按照惯例”带回西方世界,养在马戏团里做小丑,从此,Siamese一次就被引入英语世界,作为“孪生”和“连体”的代词,但是与单纯的”孪生”与“连体”相比,暹罗强调两个个体的相似和联结特性同时成立,而将其翻译成其中之一含义都有所不足,因此做此种翻译。
暹罗人,图中两位女士是他(们)的妻子