2021-08-23-深度学习预测结直肠癌微卫星不稳定性

2021-08-24  本文已影响0人  FFwizard
image.png

summary

background

临床中结直肠癌患者检测MSI对于临床决策具有重大意义,但是大部分患者并未检测。

Method

从343名患者的切除的原发性结直肠癌标本中进行随机挑选,得到50微卫星稳定的HE染色WSI (with microsatellite stability [MSS]) 以及50张微卫星不稳定的HE染色WSI (microsatellite instability --MSI)。然后用holdout 测试数据集(15例,7个MSS,8个MSI)以及外部数据集(479例TCGA数据集,77MSI,402MSS)进行验证。运用了灵敏度、特异性、阴性预测值(NPV)和接收器工作特性曲线下面积(AUROC)( sensitivity, specificity, negative predictive value (NPV), and area under the receiver operating characteristic curve (AUROC)),等统计学方法。然后选取了40张WSI(20张MSS,20张MSI),让五名胃肠方向病理学家以及机器模型(MSInet)判读,并进行结果的比较。

Findings

来自最初训练的数据集的holdout 数据集的AUROC为0·931 (95% CI 0·771–1·000) , 外部数据集0·779 (0·720–0·838) 。外部数据集的NPV of 93·7% (95% CI 90·3–96·2), sensitivity of 76·0% (64·8–85·1), and
specificity of 66·6% (61·8–71·2)。
n the reader experiment (40 cases), the model achieved an AUROC of 0·865
(95% CI 0·735–0·995). The mean AUROC performance of the five pathologists was 0·605 (95% CI 0·453–0·757).

Interpretation

MSInet的表现超过了病理学家,并且有助于患者分类,并减少相应检测的成本以及人力。

Introduction

结直肠癌患者数量众多,MSI检测对结直肠癌患者的预后分类治疗发挥着重要的作用。高收入国家高级诊疗场所已常规检测MSI,耗费较高。
深度学习在识别组织形态学模式和疾病亚型方面具有较好的前景,并有应用到生物标志无和结果预测。HE染色片子包括MSI可识别的形态学特征,以往研究中,灵敏度和特异性可达到100%。

Methods

image.png

一、研究组成以及模型开发

MSInet由一个组织类型分类器和一个MSI分类器组成
组织类型分类--七分类:脂肪组织、坏死碎片、淋巴细胞、粘蛋白、基质或平滑肌、正常结肠直肠上皮和结肠直肠腺癌上皮。
MSI分类器的开发运用了来自100张WSI(50MSS、50MSI)的31789MSI、34789MSS(像素大小245*256)
这100张WSI是用Aperio AT2扫描(徕卡生物系统公司),下文称之为Stanford-CRC dataset。
使用错配修复蛋白免疫组化以及MSI-PCR确定数据集的微卫星状态(MSI or MSS)

图像处理步骤:

1、去除白色背景,0.5um per pixel 分辨率
2、输入到组织分类器进行分类
3、将分类后的组织类型覆盖到原始WSI上,包含至少75%组织(相对于白色背景),其中至少10%组织区域被区分为癌上皮或粘蛋白。这些参数阈值由病理学家根据经验进行选择
4、Macenko method 用于对所有小病理图片的染色标准化。

染色标准后的Stanford-CRC dataset 随机分为三组
一组训练集-training set:75WSI(47584 tiles)
一组调整集-tuning set:10WSI(6698 tiles)
一组保持内部集-holdout internal test:15WSI(12296 tiles)
一个患者一张WSI,三组之间没有患者重叠
这三个数据集用于MSInet的开发
MSInet 分类器是在ImageNet上预处理过的并学习过Stanford-CRC dataset 的 MobileNetV2架构。

通过取平均值将切片级别的概率聚合成WSI级别的概率。
当患者分析了一个以上的WSI时,进一步对其进行平均以获得患者级别的概率,随后根据使用调整和内部测试集选择的概率阈值,将其分为MSS或MSI的最终预测。

二、模型性能

内部评估:holdout internal test- 可变性取决于使用四重交叉验证方案分别评估数据分割的随机性。
外部评估:非重叠的239,654个切片用于MSS,47,889个切片用于MSI
对于479名患者中的360名,MSI状态是根据之前公布的标准定义的,而对于剩下的119名患者是从附带的临床元数据文件和病理报告中提取的,下文定义为TCGA-CRC数据集。

三、Reader 研究

五名具有9-36年经验(TL、LP、GB、BM和JH)的board认证的亚专业胃肠病理学家审查了40个WSI的相同测试集(20个WSI包含MSS,20个WSI包含来自40名患者的MSI),分类平衡并从TCGACRC数据集中的所有40×WSI中随机选择。
病理学家阅片前对图像的临床信息,MSI-MSS比值一无所知。根据阅片将图像分为MSI和MSS,并在得知MSInet的结果后是否对自己的判断进行调整。
病理学家还评估了评估了已知与MSI相关的十个组织形态学特征的存在:
每个高倍视野中超过两个肿瘤坏死淋巴细胞(TILs)、克罗恩病样反应、缺乏脏器坏死(脏器坏死定义为癌腺腔内存在坏死细胞碎片)、任何粘液分化、任何印戒细胞分化、任何髓组织学、分化良好、分化差或未分化、组织异质性和肿瘤生长模式。
研究结束后会被问及是否愿意使用基于机器学习额MSI预测工具。

四、统计分析

总结一下:
六个指标:准确性、AUROC、精度-回忆曲线下面积(AUPRC)、敏感性、特异性和阴性预测值(NPV)
operating point 的两种计算方法
探究了不同批次WSI对于模型判断的影响--20个图像指标(包括颜色直方图、亮度和对比度)
探究了不同放大倍数对于模型的影响--40xWSI;20xWSI
比较了ResNet和MSINet的性能差别
探究了病理学家在模型帮助下的正确率
探究了不同病理学家以及病理学家制定的10个MSI相关组织病理学特征与MSI判读之间的相关性。

用六个预先指定的主要终点--准确性、AUROC、精度-回忆曲线下面积(AUPRC)、敏感性、特异性和阴性预测值(NPV)以及混淆矩阵来评估MSI预测性能。
准确性被定义为正确分类患者的比例。

由于我们对探索MSINet作为筛查工具的潜在效用感兴趣,我们使用了两个不同的操作点(operating thresholds 即阈值)OP1和OP2,将MSINet的概率分为二项预测,用于计算灵敏度、特异性和NPV。

在对外部TCGA-CRC数据集进行模型评估之前,两个操作点都被预先定义如下:

OP1使用Youden’s J statistic来最大化该值[sensitivity + specificity – 1],
OP2使用加权【Youden index】来最大化该值[(²/₃× sensitivity) + (¹/₃× specificity) – 1],
对灵敏度赋予两倍的权重,以增加NPV。
Stanford-CRC tuning and internal test datasets用于确定这些工作点。

NPV是使用数据集中的MSI患病率计算的(附录p 12),这与一般结直肠癌患者人群(12–15%)中报告的一致。

性能指标的统计比较是使用自举-(bootstrapping)(用于AUROC和AUPRC比较)或置换测试26(所有其他指标)进行的,使用2000个重新洗牌的数据集来测试感兴趣指标的零分布下原始差异的百分位。95%的置信区间是使用Clopper-Pearson (针对灵敏度、特异性和净现值)或百分比法自举(bootstrapping)(所有其他指标,2000次重采样)计算的。

该研究的第二个目的是检查TCGA-CRC数据集中与载玻片制备和扫描相关的WSI异质性的存在,即所谓的批次效应,并探索其对MSINet泛化性能的影响。

为此,我们从TCGA-CRC数据集中的每个WSI提取了20个图像指标(包括颜色直方图、亮度和对比度),应用了降维技术(t-分布式随机邻居嵌入--t-distributed stochastic neighbour embedding),随后采用了一种基于这些指标对WSI进行聚类的方法(有噪声的应用程序的基于密度的空间聚类),

随后探索了所得聚类是否与WSI基础放大级别(40×vs . 20×)、地面真实微卫星状态、原始机构和TCGA项目(TCGA-COAD[结肠腺癌]vs TCGA-READ[直肠腺癌])相关,其中每个项目都是来自不同研究的数据集合,

在事后分析中,我们还分别评估了MSINet在40×和20× WSIs上的性能,结果表明这两个子集可能包含影响模型性能的不同批次效应。

额外的次要目的是将MSINet的性能与已发表的最先进的ResNet18模型14进行比较,并评估MSI-low (MSI-L)病例(其生物学意义仍有争议)是否存在差异性能

我们在Stanford-CRC上训练了ResNet18 模型,将其AUROC性能与MSINet在完整的TCGA-CRC数据集以及它的40x和20x子集进行了比较。
比较了MSInet 和ResNet模型的AUROC值
另一个目的,说明了MSInet分辨MSS和MSI-L的错误数量。

使用Fleiss’ κ 检验计算了病理学家在没有模型辅助的情况的判读MSI的一致性。
通过使用 McNemar test对比了病理学家有无模型辅助的总体准确性。
使用χ2检验评估十个病理学家评估的组织病理学特征和基本事实微卫星状态之间的单变量关联。

我们探讨了MSINet的MSI输出概率、病理学家评估的10个定性组织形态学特征以及病理学家对MSI状态的整体无辅助印象(单独和组合)预测基础真实MSI状态的能力;
这使我们能够确定每个因素的独立预测值以及它们的最佳组合。预测地面真实MSI状态的混合效应逻辑回归模型是使用上述预测因子(固定效应)的顺序组合构建的,以避免由预测因子之间的相关性引起的多重相似性问题。

为了解释同一病理学家的读数之间潜在的组内相关性,病理学家被视为随机效应。为了进一步了解特定组织形态学特征与病理学家和MSINet预测之间的联系,我们还构建了混合效应回归模型,将十个组织形态学特征用作固定效应,并将病理学家的预测或MSINet的输出预测(使用OP2阈值)用作因变量。关于混合效应模型的详细信息见附录(第4页)。在每个模型中,固定效应的优势比(ORs)和95%的置信区间被呈现。

Results

MSInet外部TCGA验证数据集的的AUROC为0.779。40x的表现优于20X的表现。


image.png

使用OP1,正确率86.7%
OP2,正确率71.2%
OP1具有更高的特异性
OP2具有更高的NPV以及敏感性
TCGA-CRC数据集以及子集-40XTCGA-CRC数据集取得了类似的结果
MSInet的表现优于ResNet的表现


image.png

批次效应分析显示,TCGA-CRC WSI会被两个特征聚类,分别是不同放大倍数20X和40X,以及不同机构来源的片子。而不会因为不同的WSI的ground truth microsatellite status以及TCGA project 发生聚类。

OP1下,MSInet比病理学家更特异,但不太敏感,NPV 相似。
OP2下,MSInet有着更高的敏感性和NPV,特异性没有差异。
病理学家使用MSInet辅助情况下总体准确率没有显著差异

image.png

将病理学家以及10个组织学特征控制为随机效应的混合效应逻辑回归模型显示,三个特征与MSI独立相关。


image.png

MSInet对于ground truth microsatellite status的预测相较于病理学家表现更好

Discussion

1、本文结果表明,无论结合10个病理组织学特征与否,深度学习模型通过WSI对结直肠癌MSI的预测的特异性以及敏感性均高于病理学家。然而,使用深度学习模型作为前瞻性诊断辅助并没有显著影响病理学家的MSI预测准确性。
2、病理学家对MSI评估缺乏敏感性,且病理学家之间的一致性较低。
3、在通用MSI检测的情况下,NPV为94.1%(对应于5.9%的误报率),如果所有预测患有MSS的患者都被排除在下游检测之外,这将使检测的患者数量减少62.8%,
4、尽管MSINet的表现超过了病理学家,但它未能提高他们作为一个群体的准确性。其中一个解释是五个病理学家,四个愿意使用模型来辅助诊断MSI。其中一个不支持,也是唯一一个使用模型后,准确率下降的病理学家。
5、病理学家对模型的不信任阻止了模型的进一步应用,提高网络输出的可视化,可以增加病理学家对模型的信任程度。
6、尽管我们检查的所有十个特征都与MSI有很好的相关性,但在多变量分析中,只有三个特征是MSI状态的重要独立预测因子,未来更大的数据量可能会提供更多的相关组织特征,同时这也为MSInet的可解释行提供了一个简洁的窗口。
7、人工智能通常被称为黑盒,不能为它如何达到最终输出结果提供透明度。
8、目前较少的数据量现状下与病理学家展开更深度的合作能够更充分的运用已有的有限数据。
9、在更多不同机构来源的片子训练得到的模型将会有更好的外部数据集的验证结果。
10、随着数据量的不断丰富,深度学习模型的性能会大幅度提升,有望成为低成本自动筛查工具。
11、新的染色标准化或技术提升会显著降在HE纸片过程中的批次效应。
12、尽管现在有这些不足,模型的表现仍然超过了人类专家,随着数据的丰富,技术的提升,深度学习模型极其有可能成为MSI检测的自动检测工具,发挥其临床价值。

上一篇下一篇

猜你喜欢

热点阅读