论文笔记-GAN-Guided Deformable Atten
一句话简介:利用 CAM 注意力和GAN 引导的可变性卷积实现甲状腺结节的特征捕获,提供良恶性分类精度。
数据:甲状腺结节超声图像
任务:分类(良性、恶性)
困难:只利用图像分类较困难,超声图像嘈杂,图像有噪声,诊断依赖于医生经验
常见思路:
- 利用特征提取骨干网络对结界进行检测或者分割,然后构建分类器。然而,不完美的分割结果可能导致错误的分类预测。此外,这些方法忽略了结节外的语义信息,例如与气管的相对大小。
- 使用同一个的网络来学习检测或分割结节,并在同时进行分类任务。然而,有研究表示特征图中的不同位置对不同任务的贡献是不均衡的,即物体的边界对分割或检测的贡献更大,而分类任务更注意具有丰富信息的位置。这种重要的任务在空间维度上的不一致极大地限制了性能的提高[1]。
作者提出了一个 GAN 引导的可变形注意力网络,用于识别超声图像中的甲状腺结节。
- 作者去除了结节的分割或检测阶段,但将整个超声图像作为网络预测的输入,包含了结节之外(例如气管)丰富的语义信息。
- 作者利用在线类激活映射(CAM)来强制网络专注于结节区域。网络根据结节最具区分性的特征(例如外观和位置)进行分类。通过这种方式,网络可以提出诊断特征的位置,并帮助临床医生检查它们是否可靠。
- 作者还提出了一个带有可变形卷积层的额外的分类头,以增加带有额外偏移量的卷积操作的空间采样位置。通过采样网格的变形将注意力进一步对准结节。为了避免结节的一些重要特征(例如结节形状)的发生不合理变形,作者构建了一个生成对抗网络(GAN)以确保可靠的变形场。
方法
整体框架如图 所示,由两个主要部分组成:CAM 注意力网络和 GAN 引导的可变形模块。
CAM 注意力网络
作者使用 ResNet 作为特征提取的主干。在最后一个残差块中将步幅从 2 更改为 1吗,以保持高分辨率特征图。同时,作者使用了空洞卷积来维持感受野。来自主干的输出特征图 在每个维度上都是原始图像的 1/8 分辨率。在主干网络的最后,作者添加了一个前景注意块(FAB),它是一个自注意力模块,其中包含通道和位置注意力,可以更好地捕捉重要的远程特征,可以增强对潜在通道或潜在特征位置的响应。
FAB [2]Foreground Attention Block (FAB) [2]
级联通道和位置注意以学习前景注意图,先执行 channel-wise attention 以校准 position-wise attention 组件的有用通道。
在典型的 CAM 方法中,通过将全连接层的权重投影到全局平均池化 (GAP) 层之前的最后一个卷积特征图来生成特定于类的判别区域作为注意力图。受作者先前的在线 CAM 机制的启发,作者将典型的 CAM 改编为 CAM 注意力网络的可训练层。令 表示最后一个卷积层之后的特征图, 表示全连接层的权重矩阵。由于 1×1 卷积层在数学上与全连接层相同,我们将 复制为具有 ReLU 激活函数的单个 1×1 卷积核的权重,以生成 CAM 注意力图 :
其中, 指的是 的n个通道中的第 个通道。
然后,我们通过上采样到原始输入图像大小对注意力图进行后处理,并将值标准化为 [0,1]。然后,我们使用 Dice loss 作为注意力损失,以最大化 CAM 注意力图 C 和相应的地面实况结节掩码 之间的重叠。与分类任务的交叉熵约束一起,图 2 中第一个分类头的损失函数变为
然后,把通过上采样把注意力图处理到到原始输入图像大小,并将值标准化为 [0,1]。使用 Dice loss 作为注意力损失,以最大化 CAM 注意力图 和相应的 groundtrurh mask 之间的重叠。第一个分类头的损失函数变为
1×1 卷积层中的参数总是从全连接层复制而来,因此它们只会通过的反向传播来更新。 在 GAP 层之前反向传播,以引导来自主干的编码特征图.。
对于甲状腺结节诊断,如果结节边缘不清晰、难以区分和/或形状复杂而不是椭圆形等,则结节更可能是恶性的。为了关注结节周围的相邻上下文信息,我们将在我们的实验中,具有 15 个像素的真实结节掩码作为网络注意力的精细指导。由于此类硬病例的内部特征有限,此类操作还有助于识别小结节。此外,补充周围甲状腺组织的邻域信息对于准确诊断也至关重要。
GAN-Guided Deformable Module
为了在结节上捕获更细粒度的判别特征,作者深入研究了深度可变形卷积机制,以进一步细化网络的空间注意力。通过学习每个卷积核网格的可变形采样位置,可变形卷积层能够频繁地捕获信息区域的特征,并且还可以密集地重新分配模型的空间注意力。
超声图像中甲状腺结节存在许多几何变化。甲状腺结节的不同位置会导致成像过程中探头位置和方向的变化。此外,由于挤压探头或可能的肌肉运动(例如吞咽),柔软的甲状腺可能会产生变形。作者应用可变形卷积来模拟组织变形,并探索模型对最具辨别力的特征的关注。
然而,如果仅从分类约束中学习偏移量而没有额外的监督,则对结节建模的变形可能在物理上并不可靠。恶性结节比周围的腺体组织更容易增生和更坚固。与良性结节相比,恶性结节通常具有更不规则的边缘形状和特定的纵横比。因此,保留可变形卷积层的特征很重要。为此,作者开发了一个 GAN 来约束变形场,以引导网络捕获更多的判别特征。这个 GAN 引导模块可以通过提高模型的鲁棒性,为甲状腺组织生成可靠的变形。
作者堆叠了五个3×3卷积层,为每个核网格生成偏移场,对于特征图中的每个位置,有
其中 是枚举了卷积核网格的第k个位置的采样偏移的集合。
作者应用了标准的 3×3 可变形卷积,并将 表示为常规内核网格 , 的第 k 个偏移量,并且可变形卷积的输出特征图 $F_{deformed} 上的每个位置 p0 为:
其中 是卷积层的权重矩阵,特征通过双线性插值仅从 采样。在分类器优化期间从其周围网格中频繁采样的位置告诉我们该位置的特征更多地被分类器关注,这相当于在可变形卷积期间扩展其显着性位置。
作者通过构建一个只有 3 个卷积层的轻量级鉴别器 D 来约束可变形卷积不受任意变形的影响。由于1)肿瘤更可能是实性的,2)结节的形状对准确诊断有很大贡献,D监督结节的变形形状,作者鼓励它决定具有以下变形的结节作为可靠病例:
- 将结节扩大到原始尺寸的 0.1 到 0.4 的比例,但大致保持边缘形状和纵横比;允许结节内部的任何变形以更好地捕捉鉴别特征,但不会显着变形轮廓。
- 5度以内小幅旋转,图像总尺寸5%以内移位;
- 轻微的弹性变形以模拟可能的肌肉挤压;
- 网格的轻微变形以模拟轮廓的其他非弹性变形
因此,作者随机运行上述操作来增强groundtruth mask,并将它们串联起来作为正的可靠对。还根据每个内核网格的N个偏移场对groundtruth mask进行扭曲,并将每个偏移场与原始mask 连接起来,作为生成的假的样本。然后,用Earth-Mover(Wasserstein) 对GAN进行训练。
作者还引入了引入了平滑损失 Lsmooth 来惩罚过度离散和不可靠变形的偏移场
综上,总的loss为:
实验及结果
数据集: TN-SCUI2020 挑战数据集
与其他模型的对比:
不同模型的分类精度
消融实验,其中 mIoU指的是attention结果与结节mask之间的IoU分数:
消融实验
GAN-Guided Deformable 消融实验:
可视化结果中可以看到,可变形卷积的所有网格采样都密集地定位在结节区域内。然而,在几乎所有情况下,没有 GAN 引导的可变形卷积的偏移场会导致结节的圆形变形。它打破了与恶性肿瘤高度相关的原始边缘形状和纵横比。 GAN-guide 变形可以在放大结节区域时更好地保持这些特征,从而在这两个任务中获得最佳性能。
我们发现 GAN 引导的可变形卷积可以更好地学习用于精确分类的辨别特征。对于恶性病例,我们发现我们的 GAN 引导的变形自适应地放大了关于内部微钙化簇或其他异常内部成分,例如图 (b)中点 1 处采样的低回波部分,以及图 (b)中点 2 附近结节中心周围的纤维部分。 (c)。对于图 (d) 中的良性病例,GAN 引导的变形会仔细扩大边缘钙化(第 3 点),这有助于其区分良性结节。
总结
在这项研究中,作者提出了一种新颖的 GAN 引导的可变形网络,以专注地捕捉病变的判别特征。基本 CAM 注意力模型指导分类器关注和定位结节,并为可变形卷积层提供结节显着图。可变形注意力网络进一步引入了额外的灵活性注意力,该灵活性受到 GAN 的良好引导和约束。这些模块最终有助于分类器对结节中信息量最大的部分形成更适当的关注,并更好地捕捉良性和恶性病例之间的细微差异。大量实验表明,注意力引导模型展示了具有更紧凑结构的最先进性能,在具有多种结节外观的大型数据集中大大优于以前的 CAD 模型。消融研究还证实,通过保持边缘的细微信息并将其传递给分类器,作者的GAN 成功地将可变形卷积引导为可靠和敏感的采样策略。这也表明了为分类器提供适当指导的必要性。
不足之处
由于通过根据先验知识增加真实mask来生成用于训练鉴别器的真实样本,因此这种变形模式非常有限,并且很容易被GAN 捕获。因此,应用的变形策略可能过于保守,例如,简单地放大结节受到鉴别器的欢迎。而这种学习模式会降低可变形注意力的有效性,导致结节内部的采样策略更加统一。
其次, GAN 引导的变形卷积强调了外围信息的利用。如果应用于病变形状对诊断无用或形状清晰且易于提取的其他 CAD 任务, GAN 可能会阻止可变形卷积捕获无意义的特征。
参考: