嵌牛IT观察

遥感图像处理之基于时空注意力的变化检测(二)

2023-01-03  本文已影响0人  whywhy_not

姓名:任俊颖

学号:22011211086

学院:通信工程学院

【嵌牛导读】本文介绍了遥感图像变化检测的基于时空注意力的一种具体方法

【嵌牛鼻子】遥感图像 变化检测  自注意力 度量学习

【嵌牛提问】基于时空注意力的变化检测的主要结构是什么?包含三模块的主要作用?

总体结构

        以双时相遥感图像为输入,目的是为输出与输入图像具有相同大小的变化检测图M,在每个像素上分类预测出一种变化类别。关注的是二分类任务,也就是输出标签只有0,1的区别。

                                图2 (a) STANet的Pipeline (b) 特征提取器 (c) 基本时空注意力模块(BAM)

                                                                   (d) 金字塔时空注意模块(PAM)

        时空注意力网络(STANet)由3个部分组成,分别是特征提取器、注意力模块、度量模块。首先两图像分别送入特征提取网络中,这里的网络指全卷积网络,如没有全连接层的ResNet。获得了两个特征图X1、X2。之后,这两个特征图经过注意力模块更新为两个注意力特征图Z1、Z2。在注意力模块中设计了两种自注意力模块:基本时空注意模块(BAM)和金字塔时空注意模块(PAM)。BAM能够捕捉任意两个位置之间的时空相关性(即注意力权重),并通过时空中所有位置的特征加权和计算每个位置的信号。PAM将BAM嵌入金字塔结构中,以生成多尺度的注意力表示。将更新后的特征图resize为输入图像的大小后,度量模块计算两个特征图中每个像素对之间的距离,生成一个距离图d。训练阶段,通过最小化距离图和ground-truth的损失来优化网络,使变化点之间距离值大,无变化点的距离值小。

(1) 特征提取器

        借鉴了ResNet-18来构造特征提取器,设计了一个类似于FCN的特征提取器。FCN是一种没有全连接层的CNN,广泛用于分类任务。省略了全局池化层和原始ResNet的全连接层。由5个残差块组成。CNN的高级特征语义准确但位置粗糙,低级特征细节精细但缺乏语义信息。因此,我们融合了高级语义信息和低级的空间信息,以生成更精细的表示。这里具体采用的方法为将每个块的输出特征经上采样后在通道维上拼接。图中省略了归一化层(BN)和ReLU层。最后将拼接的特征图通过两个卷积层,这两个卷积层利用局部空间信息和降低特征通道维数生成更有鉴别性和更紧凑的特征表示。

(2) 注意力模块

        自注意力机制能够对长时期的时空相关关系建模。因此设计了一种CD自注意力机制,来整合时空中单个像素之间丰富的全局时空相关性,从而获得更多的判别特征。具体而言提出了两种时空注意模块,即基本时空注意力模块(BAM)和金字塔时空注意力模块(PAM)。

        查询、键和值张量分别通过三个不同的卷积层从输入特征中获得(输入特征为在时间维上将双时相图像特征图进行拼接得到)。时空注意力模块的核心是学习一个注意力函数,该函数将一个查询向量和一组键-值向量对映射为一个输出向量。并利用值向量对输出向量加权。通过自注意力模块得到输出特征张量,每个位置都可以顾及输入特征张量中的所有位置。引入自注意机制的直观意义在于,充分利用像素之间的时空相关性有助于获得光照不变性和对配准误差鲁棒的特征。

        残差特征图y的计算过程为:首先,从输入中计算键、值和查询。首先将输入特征张量X转化为两个特征张量Q, K。Q和K分别由两个不同的卷积层得到。我们将它们reshape为一个键矩阵K和一个查询矩阵Q。之后用键矩阵和查询矩阵来计算注意力。同样,将X输入到另一个卷积层生成一个新的特征张量V。将其reshape为一个值矩阵V。

        其次,将时空注意力特征A定义为相似度矩阵。相似度矩阵中的元素A[i,j]是第i个键和第j个查询之间的相似度。在键矩阵K的转置和查询矩阵Q之间进行矩阵乘法运算,每个元素除以Q、K矩阵的通道数,并使用softmax函数,生成注意力特征图。A的定义如下(注意,矩阵乘法结果由通道数进行缩放,来归一化)。

        PAM将四个分支的输出结果concat来达到多尺度的注意力特征表示。

(3) 度量学习模块

        深度度量学习指训练一个网络来学习从输入到特征空间的非线性转换,将相似样本的特征向量距离拉近,而将不相似样本相互推开。基于深度度量学习的变化检测的方法已经取得了优越的性能。使用了对比损失函数来激励每个不变像素对的距离变小,每个变化的像素对之间距离变大。对于更新后的特征映射Z(1),Z(2),首先通过双线性插值调整每个特征映射的大小,使其与输入的双时图像的大小相同。然后按像素计算调整特征图之间的欧氏距离,生成距离图D。在训练阶段,使用对比损失函数来优化网络参数。在测试阶段,通过固定阈值分割得到变化图。大于阈值的区域被分为变化区域。

上一篇下一篇

猜你喜欢

热点阅读