Brain:一种用于阿尔兹海默症(AD)分类的可解释的深度学习框
阿尔茨海默病是全球范围内痴呆症的主要原因,随着人口老龄化,其发病率负担日益加重,可能超过诊断和管理能力。目前的方法综合了病史、神经心理测试和MRI来识别可能的病例,但有效的做法仍然存在差异,缺乏敏感性和特异性。该研究报告了一种可解释的深度学习策略,其以MRI、年龄、性别和精神状态测试分数的多模态信息作为输入,可以描述独特的阿尔茨海默病特征。我们的框架连接了一个全卷积网络,该网络构建了从局部大脑结构到多层感知器的疾病概率的高分辨率地图,并在准确诊断的过程中生成精确、直观的阿尔茨海默病个体风险可视化。该模型使用阿尔茨海默病神经成像倡议(ADNI)数据集(n = 417)中的临床诊断阿尔茨海默病和认知正常受试者进行训练,并在三个独立队列中进行验证:澳大利亚衰老成像、生物标志物和生活方式旗舰研究(AIBL) (n = 382)、弗雷明汉心脏研究(n = 102)和国家阿尔茨海默病协调中心(NACC) (n = 582)。使用多模态输入的模型在不同数据集上表现一致,ADNI研究、AIBL、Framingham心脏研究和NACC数据集的曲线下平均面积分别为0.996、0.974、0.876和0.954。此外,我们的方法超过了由多机构执业神经学家组成的团队(n = 11)的诊断性能,并且该模型预测的高风险大脑区域密切跟踪了死后的组织病理学结果。该框架提供了一种临床适应性策略,可以使用常规可用的成像技术(如MRI)来生成阿尔茨海默病诊断的细微神经成像信号,以及一种可推广的方法,将深度学习与人类疾病的病理生理过程联系起来。
1.简介
全球仍有数以百万计的人患有阿尔茨海默氏症,而开发有效的疾病修饰疗法的尝试仍然停滞不前。尽管在利用脑脊液生物标志物,以及PET淀粉样蛋白和tau成像检测阿尔茨海默病病理方面已经取得了巨大的进展,这些模式往往仍然局限于研究背景。相反,目前的诊断标准依赖于高技能的神经学家进行的检查,包括询问病史,客观认知评估,如床边简易精神状态检查(MMSE)或神经心理测试,以及结构MRI来判断提示阿尔茨海默氏症的结果。临床病理研究表明,临床医生的诊断敏感性在70.9% - 87.3%之间,特异性在44.3% - 70.8%之间。虽然mri显示阿尔茨海默病中所注意到的特征性脑改变,如海马和顶叶萎缩,但这些特征被认为缺乏影像学诊断阿尔茨海默病的特异性。鉴于这种相对不精确的诊断前景,以及脑脊液和PET诊断的侵入性,以及缺乏具有足够的阿尔茨海默病诊断专业知识的临床医生,先进的机器学习范式,如深度学习),提供了从神经学实践范围内收集的MRI数据中获得高精度预测的方法。
最近的研究已经展示了深度学习方法的应用,如用于MRI的卷积神经网络(CNNs)和基于多模态数据的认知状态分类。尽管结果很有希望,但由于几个原因,这些模型还没有完全融入临床实践。首先,深度学习算法缺乏外部验证,因为大多数模型都是在单个队列上训练和测试的。其次,生物医学领域有一种日益增长的观念,认为深度学习模型是黑盒算法。换句话说,尽管深度学习模型在广泛的疾病谱系中显示出了高精度的分类,但它们既没有阐明潜在的诊断决策,也没有表明与输出预测相关的输入特征。最后,考虑到阿尔茨海默病的不确定的发病和症状的异质性,一个计算机化的个体水平表征阿尔茨海默病仍然没有解决。考虑到这些因素,我们推测,由于缺乏对单一队列驱动模型的外部验证,以及越来越多地使用不透明的决策框架,深度学习的临床潜力被削弱了。因此,克服这些挑战不仅对利用深度学习算法的潜力来改善患者护理至关重要,而且也为医学成像领域中可解释的循证机器学习铺平道路。为了解决这些限制,我们开发了一个深度学习框架,链接一个完全卷积网络(FCN)传统多层感知器(MLP)来生成高分辨率老年痴呆症风险的可视化,可以用来准确预测年代老年痴呆症的状态(图1)。四个不同的数据集选择模型开发和验证:阿尔茨海默病神经成像倡议(ADNI)数据集,澳大利亚成像,生物标志物和生活方式旗舰研究(AIBL),弗雷明汉心脏研究(FHS),和国家阿尔茨海默病协调中心(NACC)(补充图1)。模型预测与神经病理学结果的关联,以及与神经学家团队的模型性能的头对头比较,强调了深度学习框架的有效性。
图1 深度学习框架。FCN模型在随机选择的样本中使用patch-based策略开发(47x 47x 47体素sub-volumes大小),t1加权全部磁共振体积被传递到模型进行训练(步骤1)。相应的老年痴呆症的个体作为分类模型的输出。鉴于FCNs的操作独立于输入数据的大小,导致模型的生成为participant-specific大脑疾病的概率地图(步骤2)。选择的高危疾病概率地图的体素随后被传递到MLP,进行疾病状态二进制分类(模型在步骤3;核磁共振成像模型)。作为进一步的对照,我们只使用包括年龄、性别和MMSE在内的非影像学特征,并开发了一个MLP模型来区分阿尔茨海默病和认知正常的个体(模型B在步骤3;非模型)。我们还开发了另一个模型,将包括高危疾病概率图所选体素在内的多模态输入数据与年龄、性别和MMSE评分相结合,对阿尔茨海默病状态进行二值分类(step3中的模型C;融合模型)。阿尔茨海默病;NC=正常认知。
2.结果
我们的深度学习管道可以链接一个FCN到MLP,来直接从核磁共振数据或从核磁共振数据和现成的非图像数据的结合预测阿尔茨海默疾病状态(图1)。框架的FCN部分生成高分辨率整体老年痴呆症风险的个体的可视化作为局部的脑形态函数。我们把这些可视化的图像称为疾病概率图。然后使用疾病概率地图直接向MLP (图1的MRI模型),或一组非图像的特征,如年龄、性别和MMSE评分(非模型在图1),或一个多通道的输入数据包括疾病概率地图、MMSE得分,年龄和性别(图1融合模型),来精确预测4个队列的阿尔兹海默症的状态。我们选择这些已知的阿尔茨海默病危险因素,因为它们可以很容易地由非阿尔茨海默病专家获得。FCN被训练从整个MRI体积中随机选取的像素块(子块)来预测疾病概率(图1和补充表1)。考虑到这种类型的网络接受任意大小的输入,然后,利用亚体积训练的FCN构建高分辨率的疾病概率图,而不需要对完整尺寸的测试图像进行冗余分解。
对个体MRI体积的快速处理分别产生了受影响和未受影响个体大脑中局部阿尔茨海默病概率的体积分布(图2)。为了评估从这些分布中得出的与阿尔茨海默病相关的形态学热点的解剖一致性,构建了群体水平马太相关系数图。这一映射使人们能够识别出最容易准确预测疾病状态的区域(图3),从而作为一种手段来证明阿尔茨海默病中受神经病理变化影响最大的结构。
图2 个体水平疾病概率映射 (A)FCN模型生成的疾病概率图突出了与阿尔茨海默病病理相关的高风险大脑区域。图中蓝色代表阿尔茨海默病的低风险,红色代表高风险。其中,前2名被诊断为认知功能正常,而另外2名被诊断为阿尔茨海默氏症。(B D)显示了一个临床确诊的阿尔茨海默氏症患者的轴向、冠状和矢状疾病概率图。所有成像平面均用于构建三维疾病概率图。红色表示阿尔茨海默病的局部推断概大于0.5,而蓝色表示小于0.5。
图3 FCN模型表现总结 (A)在所有数据集上独立计算的马太相关系数(MCC)的体素水平图,以证明来自大脑所有区域的预测性能。(B D)显示了单个受试者在每个截面上的MCC图的轴向、冠状和矢状。这些图是通过对ADNI测试数据的MCC值进行平均生成的。
作为确认,从选定的分段大脑区域提取的平均区域概率(图4),与死后神经病理学检查报告的阿尔茨海默病阳性结果高度相关。具体来说,这些区域与FHS数据集(n = 11)的可用尸检报告中报告的淀粉样蛋白-β和tau病理的位置和数量频率相关(补充表5)。除了预测患有阿尔茨海默氏症的人比没有的人患区域特异性阿尔茨海默氏症的概率更高外,在阿尔茨海默病模型所涉及的大脑区域中,蛋白质疾病更为常见(图4)。模型预测的阿尔茨海默病高风险区域与被指出具有高局部淀粉样蛋白-β和tau沉积的分段区域重叠。此外,在这些区域内,预测阿尔茨海默病的风险随着病理评分的增加而增加。考虑到这些尸检结果是确定阿尔茨海默氏症的决定性证据,这些物理结果是基于生物学证据的计算预测。
图4 模型发现与神经病理相关性
此外,疾病概率图提供了一个信息密集的特征,当将其独立传递到框架的MLP部分时,可以产生敏感和特定的阿尔茨海默病状态的二元预测(图5A和图B中的MRI模型)。性别和MMSE得分也预测老年痴呆症的疾病状态(非模型在图5 a和B)。模型进一步提高性能通过扩大MLP输入包括疾病概率地图,性别,年龄,和MMSE评分(融合模型在图5 a和B)。当其他非图像的特性,比如APOE基因位点包括在内,模型性能略有改善(补充图4和补充表6)。考虑到年龄与全脑萎缩之间的比例,在MLP阶段添加非成像变量也允许我们控制大脑形态变化在生命周期中的自然进展。
我们还将深度学习模型的表现与一组国际临床神经学家进行了比较,这些临床神经学家是从随机抽样的ADNI参与者队列中招募来的,他们提供了MRI、MMSE评分、年龄和性别。神经科医生的表现(图5A)显示了不同临床实践的差异性,通过配对kappa (κ)评分评估,评分间具有中度一致性(图5A;k = 0.493 0.16)。有趣的是,我们注意到深度学习模型仅基于MRI数据(MRI模型;准确性:0.834 ± 0.020),优于神经科医生的平均水平(准确性:0.823 ±0.094;补充表7).当模型中加入年龄、性别和MMSE信息时,性能显著提高(融合模型;准确性:0.968 ± 0.014)。
图5 MLP模型与神经学家在AD分类中的表现比较
通过使用其他指标,深度学习模型在外部数据集上的一致、高分类性能得到了确认。我们使用来自所有四个数据集的强度值作为输入,对磁共振体积扫描进行了t-分布随机邻嵌入(t-SNE)。t-SNE方法采用高维数据,并创建这些数据的低维表示,这样就可以很容易地将其可视化。t-SNE图导致扫描的位点特异性聚类(图6A),病例的位点内分布显示阿尔茨海默病和正常认知病例之间没有明显的区别。这一观察结果强调了仅使用MRI扫描数据利用监督学习策略预测阿尔茨海默氏症状态的理论基础。我们相信这是我们研究的一个优势,因为尽管存在位点特异性差异,FCN模型能够很好地概括外部数据集。然后,我们使用来自ADNI队列的扫描仪特异性信息,生成另一个t-SNE可视化,它也显示没有可辨别的阿尔茨海默病或正常认知病例的聚类(图6B)。这意味着任何潜在的扫描仪特异性差异可能不会影响模型训练过程。进一步,我们通过t-SNE分别对阿尔茨海默病和正常认知病例进行聚类,直观地检查了模型性能,t-SNE使用了MLP最后隐藏层之前的特征(图6C)。
图6 数据可视化 (A)所有4个数据集(ADNI, AIBL, FHS和NACC)的体素级MRI强度值作为输入,使用t-SNE生成二维图,这是一种可视化高维数据的方法。图中的颜色代表站点,数字0代表正常认知能力(NC)患者,数字1代表阿尔茨海默氏症(AD)确诊患者。(B)这个t-SNE图仅在使用ADNI数据集上生成,其中的颜色被用来表示扫描仪。数字0表示正常认知,1表示阿尔茨海默氏症。(C)基于fcn的输出作为MLP模型的输入特征,嵌入到使用t-SNE为两类(阿尔茨海默病和正常认知)生成的二维图中。颜色(蓝色和红色)被用来区分正常认知和阿尔茨海默氏症病例,而一个独特的符号形状被用来代表来自同一队列的个体。另外,还显示了被临床诊断为阿尔茨海默病或认知能力正常的病例(在相应的数据点上画上黑色圆圈)。该图也表明了受试者在基于疾病状态的特征空间而不是在原始数据集上的共同定位。
值得注意的是,我们的策略代表了计算效率显著增加,相比于传统CNN方法做相同的任务(图1中的步骤1和补充图5)。鉴于固定致密层维度, 从传统CNN产生疾病概率地图不仅需要sub-volumetric训练,而且需要亚容积应用于全尺寸MRI容积(补充表8),需要重复计算来计算局部疾病状态的概率。通过规避这种刻板性,我们的方法很容易生成疾病概率图(图1,步骤2),可以与多模态临床数据集成,用于阿尔茨海默病的诊断(图1,步骤3)。因此,这项工作扩展了最近报道的研究成果,直接从医学图像中提取疾病风险的视觉表征,也代表了FCNs在疾病分类任务中的应用,而不是语义分割。此外,FCN模型在预测阿尔茨海默病状态方面的表现与具有全连接层的传统CNN模型相同,而且这一结果在所有数据集上都是一致的(补充图5和补充表8)。FCN模型优于使用导出的MRI特征构建的传统机器学习模型。
3.讨论
我们的深度学习框架将一个全卷积网络连接到一个多层感知器,并生成高分辨率的疾病概率图,用于神经学家级别的阿尔茨海默病状态的诊断准确性。我们的模型输出的直观的局部概率是很容易解释的,从而促进了医学中可解释的人工智能的发展,并从传统的诊断工具中衍生出隐伏疾病的个体化表型。事实上,疾病概率图提供了一种方法,可以在诊断过程中追踪与阿尔茨海默氏病有关的明显的大脑区域。然后,我们汇总了整个队列的疾病概率图,以证明阿尔茨海默病和正常认知病例的神经解剖风险图在人群水平上的差异。关键的是,根据几个不同指标的标准,我们的模型显示了良好的预测性能,在所有测试数据集上产生高和一致的值。这种具有MRI方案、位置和招募标准广泛差异的队列之间的一致性,表明了很强的通用性。因此,这些发现展示了医学和计算联系的创新,同时为计算机视觉领域提供了新的见解,同时也扩大了神经网络在生物医学领域的应用范围。
总之,我们的深度学习框架能够从MRI数据中获得高精度的阿尔茨海默病分类签名,我们的模型通过独立队列数据、神经病理学结果和专家驱动的评估进行了验证。如果在临床环境中得到证实,这种方法有潜力扩大神经成像技术用于疾病检测和管理的范围。与目前的神经系统评估相比,进一步的验证可能会导致改善的护理和结果,因为对疾病修饰疗法的研究仍在继续。