Decoding tumour phenotype by non
使用定量影像组学方法通过非侵入成像解码肿瘤表型
摘要
人类癌症具有非常大的表型差异,这些差异可以通过医学成像非侵入性地显示出来。影像组学是指利用大量的定量影像特征对肿瘤表型进行综合量化。本文从1019例肺癌或头颈癌患者的CT影像中,提取了440个肿瘤影像的强度、形状和纹理等特征进行影像组学分析。我们发现大量影像组学特征对肺癌和头颈癌患者的独立数据集具有预后能力,其中许多特征在以前被认为是不显著的。影像基因组学分析显示,预后的影像组学基因特征显示,捕捉核内异质性,与潜在的基因表达模式有关。这些数据表明,影像组学鉴定了存在于肺癌和头颈癌中的一般预后表型。这可能会产生临床影响,因为影像在临床中是经常使用的,为以低成本改进癌症治疗中的决策支持提供了前所未有的机会。
关键字:CELL LUNG-CANCER; HETEROGENEITY; VARIABILITY; EVOLUTION; SURVIVAL; RECIST; STAGE
影像组学
影像组学是一个新兴领域,其利用大量自动提取的数据表征算法将图像数据转化为高维可采空间。我们假设这些影像学特征捕捉了肿瘤表型的显著差异,可能具有预后意义,因此在不同疾病间具有临床意义。在七个独立的数据中,包括1019名肺癌和头颈癌患者,我们评估了440个影像组学特征的临床相关性,其中许多目前没有已知的临床意义。两个数据集用于评估特征的稳定性,四个数据集用于评估肺癌和头颈癌患者的影像组学特征的预后价值,一个数据集用于关联所有CT切片上肿瘤区域的轮廓。
图1 从影像中提取影像组学特征
(a)肺癌患者的CT图像,左边是肿瘤轮廓的CT图像,右边是三维图像。(b)从CT图像中定义的肿瘤轮廓中提取特征,量化肿瘤强度、形状、纹理和小波。影像组学特征与临床资料、基因表达资料进行比较分析。
图2 分析工作流
将所定义的影像组学特征算法应用于7个不同的数据集。采用两组数据分别计算特征的稳定性等级(橙色)。Lung1数据集包含422个非小细胞肺癌患者,被用作训练数据集。Lung2,H&N1和H&N2被用作验证数据集。Lung3数据集用于联合影像组学signature和基因表达谱。
我们的研究结果显示,影像组学数据在肺癌和头颈癌患者中都包含有很强大的预后信息,并且与潜在的基因表达模式相关。这些结果表明,影像组学揭示了存在于多种癌症类型中的一般预后表型。
结果
-
影像组学数据与临床数据的相关性。
为了评估影像组学特征捕获肿瘤表型差异的价值,我们进行了一项综合分析来评估预后表现和肺癌头颈癌数据集中的基因表达相关性。首先。我们通过肿瘤图像强度、形状、纹理和多尺度小波定义了440个描述肿瘤表型特性的定量图像特征。
为了调查影像组学的表达模式,我们从Lung1数据集中抽取了440个影像组学特征,其中包括422例非小细胞肺癌患者。无监督聚类显示患者类簇与影像组学表达模式类似。如图3,我们将三个主要的患者群和临床参数进行比较,发现影像组学表达模式与原发肿瘤分期和整体分期显著相关,其中患者群I与较低阶段相关。
图3 影像组学热图
(a)y轴表示无监督聚类的肺癌患者,x轴表示影像组学特性的表达,图3揭示了集群类似患者的影像组学表达模式。(b)临床病人参数,以显示影像组学表达模式与原发性肿瘤分期之间的显著相关性。(c)影像组学特征与聚类表达模式的对应关系。 -
影像组学数据的预后价值
通过Kaplan-Meier生存分析探讨了影像组学特征与生存的可能关系。在训练中,使用了Lung1数据集,验证了Lung2、H&N1和H&N2数据集,没有对任何数据进行归一化,只使用了直接从DICOM图像中计算出来的原始值。为了保证完全独立的验证,在训练数据集上计算每个特征的中值,并锁定为验证数据集的阈值,在不进行再训练的情况下评估生存差异。 -
建立预后影像组学特征
为了建立一个预后影像组学特征,我们将分析分为训练和验证阶段。虽然容积在所有数据集中表现较好,但其影像组学特征表现更好,说明影像组学特征中包含了与预后相关的、互补的信息,而且在所有数据中,将容积与影像组学特征结合明显优于单独使用容积。
方法
我们定义了440个描述肿瘤特征的影像组学特征,这些特征可以被自动提取。这些特征可以被分为四组:(I)肿瘤强度;(II)肿瘤形态;(III)纹理;(IV)小波特征。第一组采用一阶统计量量化肿瘤强度特征,由所有肿瘤体素强度直方图计算得出。第二组根据肿瘤的形状(例如肿瘤的球形和致密性)组成特征。第三组由纹理特征组成, 这些特征能够量化肿瘤体积内部可见的纹理的异质性差异。这三组特征都是在肿瘤体积的三维方向上计算得到,从而考虑了每个体素相对于周围体素的空间位置。第四组通过对原始图像进行小波分解计算强度和纹理特征,从而更加关注肿瘤体积内不同频段的特征。具体的特征提取算法描述在这里。
讨论
在这项研究中,我们分析了440个影像组学特征。发现大量的影像组学特征具有预后能力,其中许多影像学特征的预后含义从未被描述过。此外,我们的综合分析表明,基于稳定性和可重复性选择的特征也是信息最丰富的特征,这表明了集成独立数据集进行影像组学特征选择和模型构建的能力。
我们还表明,捕获肿瘤内异质性的放射学特征具有很强的预后和有效性,并与基因表达谱有关。为了避免任何形式的过拟合,我们进行了一个健硕的统计验证:只有一个影像组学signature(包含4个影像组学特征)在独立的验证集上的545名患者数据上验证。表现最好的特征”灰度不均匀性(特征48)“和“最主
要的特征(特征III和IV)”量化了核内异质性。
本文的主要问题不在于诊断,而在于如何从肿瘤表型中提取更有用的信息,以用于个性化治疗。因此我们使用大量的特征和外部的独立的患者验证队列,评估影像组学与临床因素、预后和基因表达水平的相关性。