基于语义的医学图像融合方法2019-10-26

2019-10-26 本文已影响0人一只大南瓜

论文原文：A Semantic-based Medical Image Fusion Approach

摘要：

医学图像融合对临床诊断有着很重要的作用。但是目前存在的医学图像融合方法忽略了图像的语义信息，试融合后的图像难以理解。（本来融合就是要更多的保留不同模态之间的互补信息来辅助诊断的。因此语义信息当让重要了。）在本文中提出了一种基于语义的医学图像融合方法。Fusion W-Net（FW-Net）。大大的减少了语义信息的损失。并且与先进方法一样有较好的视觉效果，在临床应用上有很大潜力。

Introduction

低成本的融合方法大致采用这样策略：把不同域的图像转换成不同尺度的参数，然后采用人工设计的规则来优化融合他们，但是这些方法忽视了不同模态之间的语义冲突。例如：骨组织在CT中试比较亮的，但是在MR-T2图像中试安的（这是由不同模态图像的成像原理决定的）因此这些存在的方法有如下两个弊端：
1）现存方法忽视语义冲突。从而导致融合图像的于一损失，如，CT中亮的是密度的组织，MR中量的部分代表组织的流动性和磁性。所以不容模态之间图像嗯待亮的部分的语义完全不同。
2）不考虑亮度语义的融合方法会导致某些脑组织边界模糊。在图1 (b)的绿色框架中，我们可以清楚地看到额窦的炎症区域，这也是临床医生关注的重点。但由于图1 (a)对应部分为亮部，融合时额窦边界(c)(d)和(e)变得模糊。

Figure 1: Problems of existing approaches. (a) and (b) are the source images CT and MR-T2 respectively. (c), (d) and (e) are the fused images synthesized by three state-of-the-art medical image fusion approaches: the convolutional neural network in Laplacian pyramid domain approach (LP-CNN) [5], the fuzzy-adaptive reduced pulse-coupled neural network in NSCT domain (NSCTRPCNN) approach [8], and the parameter-adaptive pulse coupled neural network in nonsubsampled shearlet domain (NSST-PAPCNN) approach [1].

在本文中我们提出了基于语义的融合方法：先提取不同模态的图像的语义特征，然后把他们映射到新的语义空间，然后再新的于一空间生成出融合的医学图像。采用的FW-Ne由两个U-net组成。

Related works

图像转换

两种方式：1）任务中有目标域的情况（目标域是其中一个源域）：这种一般是把另一个域的图像融合进这个域。通过像素级或者结构级的回归来实现。2）目标域不在任务中通常训练一个度量来生成图片。

自编码器

U-net

底层保留了细粒度信息，高层保留了语义和高频信息。这再图像融合中是有益的。

Our approach

1）从源域提取信息，包括结构信息和语义信息
2）把不同域的信息映射到相同的空间，
3）再相同空间内融合重建图像。
自动编码器中编码器用力拍提取特征，解码器用来进行重构，通过最小化生成图像和源图像之间的均方误差(MSE）来进行学习和训练。

具体方法

编码器和解码器都使用U-Net。第一U-Net用于生成融合图像从两个源域到目标域，第二U-Net用于重建源图像。最后，通过最小化重构误差得到融合后的图像。传统的自编码器框架是完全连接的，因此编码器的矢量输出不能保证与源图像在空间上保持一致，而U-Net采用局部连接结构，使得输出矢量在空间上保持一致，从而得到视觉融合的图像。

优化目标

前两项是重构的语义损失，个人感觉类似于cycle的损失。只不过cycle的损失还有对抗损失这里没有用到鉴别器。
KL散度的目的是是图像平滑，是图像平滑和显著性之间的权衡。
最后一项是正则化，防止模型过拟合

语义损失的评估

为了评估语义损失，为每个方法训练一个编码器，再训练过程中用来优化

训练之后采用下式来计算语义损失

个人对语义损失的理解：
对每个方法训练一个编码器实现从融合图像到源图像的映射。通过最小化J损失。能够得到一个学习好的编码器，完成这个任务在，这时候的语义损失较小。然后计算语义损失的时候是为了计算生成的图像按照同样的映射方法得到的图像和源图像的差，如果差的大，说明融合得图按照通用得映射方法，效果不理想。也就是融合图效果不好。但是一个疑问，我融合好得话按照这个映射关系不一定会得到值最小啊。到源域得映射不一定这一条最好啊。这点还值得再深入思考。对于这点作者也说的较为简略。全靠猜。

网络结构：

1)在编码器和解码器的每一层都加入了batchnorm 加速收敛，提升效果

2)用双线性插值运算代替反卷积运算。反卷积导致生成质量变差。可能会导致明显得椒盐噪声和迷糊。

The improved U-Net structure. Blue boxes represent feature maps. The number of channels is denoted at the top of the box. The x-y-size is next to the box. Arrows of different colors represent different operations.

数据：

CT and MR-T2 http://www.med.harvard.edu/AANLIB/home.html

评价标准

Q_MI 互信息
QAB/F 衡量边缘信息保留成都
SSIM 结构相似性
Q_D 视觉不同行
SL 语义损失

实验结果

SSIM一个很高，一个很低。作者得解释是因为融合后得图像比较好的保留了CT得信息，又因为是通过语义相似性约束得，不同模态之间得语义相似性相差很大，所以才一个0.8一个0.3.

The fused images with different approaches. (a) and (b) are CT and MR-T2 images to be fused, and (c), (d), (e), (f), (g) and (h) are fusion results generated by different approaches

红色是钙化得组织。再临床上应该重点关注。所以融合得话这个信息应该保留。所以相比本文方法其他方法都对这部分有了一定得模糊效果。
黄色脑室黄色箭头指得点再MR中有体现，再融合图中也有体现。说明确实是融合了两个图得信息。
蓝色为头外骨。

结论：方法有效。

思考：
总觉得语义相似性有点怪怪得，但说不出哪里有毛病。