非因解读 | 利用RPPA数据准确预测肺癌生存亚型
利用RPPA数据准确预测肺癌生存亚型
肺癌作为全球发病率和死亡率最高的癌种之一备受关注,而如何提高肺癌预后准确率则显得尤为重要。近年来,多组学整合分析已经逐渐显露出在临床探索和应用中的巨大价值,然而,与之相关的方法学尚未完全建立。随着数据维度的增长,去除冗余信息、发掘有效信息的新方法和生物信息学手段需要进一步完善。Ken Asada等科学家联合多家单位,在《Biomolecules》杂志上发表题为“Predicting Deep Learning Based Multi-Omics Parallel Integration Survival Subtypes in Lung Cancer Using Reverse Phase Protein Array Data”的文章(图1),文章通过基于TCGA多组学数据的第一维度分析,同时结合人工智能算法,发现了仅依赖于RPPA蛋白组学数据定义的预后生存亚型,体现了蛋白组分析在预后生存研究中的巨大价值。
图1研究亮点
研究者开发了一种新方法,利用多组学数据准确预测肺癌患者的生存特征。采用无监督的机器学习技术,将TCGA数据库中6类非小细胞肺癌(NSCLC)相关的组学数据划分为不同的生存亚型。该生存亚型被称为整合生存亚型,并将患者划分为长生存期和短生存期两组(p=0.003),而且该研究发现,这些生存亚型与组织病理学无关(p=0.94)。研究者同时尝试仅用RPPA蛋白组学数据集来验证整合的生存亚型,该方法可以准确的预测整合生存亚型(AUC=0.99),预测的生存亚型可以明显的区分出高风险患者和低风险患者(p=0.012)。该研究揭示了多组学分析、尤其是RPPA蛋白组学数据在预测肺癌患者预后中的宝贵价值。
RPPA新型靶向蛋白组学作为一种高通量的多重蛋白靶点分析技术,可实现大规模样本的几百种中低丰度蛋白靶点和修饰靶点的平行分析;同时RPPA具有其它高通量蛋白组学所无可比拟的超高灵敏度,可在40微克总蛋白或15毫克组织中(米粒大小)分析>300种中、低丰度蛋白,包括大量药物靶点、细胞信号蛋白、翻译后修饰蛋白(磷酸化,乙酰基化,甲基化)等。非因生物传承MD安德森癌症中心的价值和理念,已经开发了一整套包含几百个蛋白和磷酸化靶点的RPPA蛋白组学分析panel——Cancer Signaling Pano-Profiler,非因RPPA新型蛋白组学技术在定量能力、重复性、大样本分析比对能力上的优势,是其它蛋白组学技术手段所不具备的。
研究思路
文章以发病1天-10年之间的肺癌患者为研究对象,从TCGA数据库获取了6类(miRNA,mRNA,methylation, CNV, Somatic mutation和RPPA)肺腺癌(LUAD)和肺鳞癌(LUSC)的临床和多组学数据;根据样本ID(6类组学数据都全的病例或缺失的病例)将数据划分为Common ID和Uncommon ID。首先利用开发的包含神经网路特征筛选的自动编码器(Autocoder)将各组学数据矩阵进行降维(每个组学都降至100维),然后用Cox-PH模型选择各组学的特征值来构建整合的组学矩阵,进一步k-means聚类、logistic回归、生存分析等方法来预测整合生存亚型。该研究同时开发了XGBoost和LightGBM两种模型来预测与整合生存亚型相关的蛋白质。其中组学Common数据训练及验证模型的比例为80:20;并用Uncommon数据,尤其是RPPA-uncommon来验证模型预测整合生存亚型的有效性及准确性(图2)。
图2研究结果
1. 无监督的方法获取具有临床意义的生存亚型
作者从TCGA数据库获取了6类LUAD和LUSC的临床和多组学数据。根据样本ID将数据划分为Common ID和Uncommon ID。Common ID包括6类多组学数据,其他的ID被定义为各组学的Uncommon ID。Common ID总计483个,Uncommon ID因组学类型而异(Table 1)。
利用Autocoder将6类组学数据维度均降至100,形成6个简化的数据集。对简化的数据集进行单变量Cox-PH回归分析,筛选出与患者生存率显著相关的特征值。特征值的筛选标准为:p值<0.01或0.01<p值<0.05,并筛选出6类组学数据集中p值排前三的特征值。共筛选到29个基于6个组学信息的特征值(Table 2),然后进一步将这6类数据集整合为一个单一的矩阵(行为样本ID,列为特征值,即483x29),并称其为组学矩阵。
接下来,作者利用组学矩阵来确定合适的聚类数目。依据Calinski-Harabasz标准和Silhouette指数来确定最佳聚类数目(图3a,b)。结果显示2为最佳的聚类数目。图3c为t-SNE可视化的基于29个组学特征的k-means聚类结果。由k-means聚类中推断出的标记称为Cluster ID。进一步的生存分析结果表明,不同Cluster ID组(整合生存亚型)的生存率存在显著差异(p=0.03,图3d)。属于整合生存亚型1(较长生存期)和整合生存亚型0(较短生存期)的患者数目分别为270和213例。而且,整合生存亚型与肿瘤组织病理学亚型(LUAD或LUSC)之间没有显著的相关性(p=0.94),说明该模型在预测患者生存亚型时,可作为独立因素来评估预后。
图32. 利用压缩的数据集预测整合生存亚型
研究者继续通过无监督机器学习,将不同的组学数据分类,根据已知的生存数据来评估不同组学数据得到的分类器准确性(比如mRNA和miRNA的组学矩阵分别为483x12和483x3)。研究者发现,RPPA部分的数据矩阵似乎可以完美预测整合生存亚型(图4)。另外,CNV和mRNA因为特征值大于3个(Table 2),因此无法用3D图展示。接下来,根据每个组学矩阵建立了6个logistic回归模型,然后用AUC来对模型进行评估(Table 3)。数据显示,仅RPPA组学矩阵训练的机器模型可以准确的预测整合生存亚型(AUC=0.99)。
图4 具有3个特征值的分割组学矩阵的分布3. 利用Uncommon RPPA数据集验证
研究者接着利用RPPA-uncommon数据验证所得到的整合生存亚型的有效性和可预测准确性,使用经过训练的Autocoder对RPPA-uncommon数据进行评估,选用与Table2中相同的特征值作为输入,用上述RPPA部分组学矩阵训练过的logistic回归模型预测生存亚型。其中83名患者被标记为整合生存亚型1,64名被标记为整合生存亚型0,两种生存亚型之间的生存率存在显著差异(p=0.012,图5),且该预测的整合生存亚型与组织病理学亚型无关(p=0.64),这表明该的模型预测的患者生存亚型独立于组织学亚型。
图54. 整合生存亚型与RPPA生存亚型的比较
研究者接着RPPA-common数据创建的目录进一步建立了另一个机器学习模型来预测RPPA生存亚型。通过比较整合生存亚型和RPPA生存亚型来验证整合生存亚型的有效性。首先,作者使用RPPA-common数据进行单变量Cox-PH回归来选择与患者生存率显著相关的蛋白,并将显著相关的前三个蛋白(ERRFI1、CCND1和BCL2)作为特征值。然后,进行无监督聚类并探索与生存相关的亚型。依据Calinski-Harabasz标准和Silhouette指数确定最佳聚类数为2(图S1a,b)。S1c为t-SNE可视化的k-means聚类结果。由k-means聚类中推断出的标记称为RPPA生存亚型。生存分析发现RPPA生存亚型之间的生存率差异显著(p=0.003, S2a)。从RPPA-common数据中选取3个蛋白(特征值)进行logistic回归分析,可以准确的预测RPPA生存亚型(AUC=0.99)。然而,使用RPPA-uncommon数据进行logistic回归分析推测的RPPA生存亚型之间的生存率差异不显著(p=0.9,图S2b)。
图S1 图S25. 与整合生存亚型相关的蛋白质
基于上述数据,RPPA数据具有独立预测生存亚型的潜力。因此,研究者继续利用RPPA -common数据,结合XGBoost、LightGBM两个分类器模型来预测整合生存亚型。在此,XGBoost和LightGBM两个模型的所得到的AUC分别为0.95±0.02和0.92±0.01(图6),然后用SHAP来解释这两个模型。图7说明,两个模型所预测的重要蛋白几乎一致,而且前5种蛋白(NKX2-1、CAV1、CDH3、FN1和YBX1)是完全相同的。这5种蛋白的表达与癌症患者预后的关系与前人的研究结果相一致。CAV-1和YBX-1通常为NSCLC预后的负预测因子。FN1似乎与cisplatin耐药相关,CDH3的过度表达与乳腺癌、前列腺癌、卵巢癌、结肠癌和胃癌的不良预后相关。
图6 图7NKX2-1已被证明在肺发育、肺癌分化和形态发生中起关键作用,特别是在LUAD中。同时,该研究分析表明LUAD和LUSC在RPPA和mRNA水平上的表达无显著差异(补充图S3)。研究显示NKX2-1过度达与生存率呈正相关,这与该研究结果一致(图7)。
该研究的分析可以解释一些尚未完全解决的相互矛盾的结果。NKX2-1的表达通常被认为与良好的预后相关,然而也有研究提出了相反的观点。Yoon等发现NKX2-1阳性的CTCs对NSCLC患者具有特异性,且CTCs与生存率呈负相关。该研究与其他研究主要有两点区别:1)Yoon等人关注CTCs,而其他研究,包括本文章的研究使用的是肿瘤切片样本;2)他们使用RT-PCR进行mRNA定量,其他的研究则使用免疫染色法进行蛋白定量。作者进一步研究了RNA表达与蛋白表达水平之间的关系,如图8a所示,NKX2-1的RPPA表达水平在整合生存亚型之间呈弱正相关,因为NKX2-1 RPPA高表达更可能被归类为整合生存亚型1(rpb=0.323)。然而,NKX2-1的mRNA表达水平在整合生存亚型之间呈无关,NKX2-1 mRNA高表达一般标记为整合生存亚型1,低mRNA表达标记为整合生存亚型0(图8b,rpb=0.064)。这种趋势与图7一致。而且,整合生存亚型0、1之间NKX2-1 RPPA和mRNA的表达存在显著差异(p<0.001[RPPA] p=0.025[mRNA])。值得注意的是,NKX2-1 RPPA和mRNA的表达水平之间并无相关性(r=0.102)。显然,mRNA水平不足以预测蛋白表达水平,这与前人研究一致。因此,该文章的分析可能对不同研究之间结果差异进行相应的解释。
图8文章总结
该研究利用6类组学数据预测了NSCLC中独立于肿瘤组织类型的整合生存亚型。作者仅用了RPPA数据来预测整合生存亚型,并用各组学独立的数据作为测试数据集来验证模型。鉴于组学分析的巨大潜力,作者用两种不同的机器学习模型鉴定了至少5种与肺癌患者生存相关的蛋白(NKX2-1,CAV1,YBX1,FN1和CDH3)。该研究还探讨了使用深度学习和机器学习相结合的方法分析多组学数据预测预后的优势,此方法可能比传统的单组学方法更可靠,尤其是在NSCLC患者中,可以使用gradient Boosting方法预测与整合生存亚型相关的基因。