6.5分中科院小类1区,热点基因集+100种机器学习组合+单细胞

2024-01-18  本文已影响0人  生信小课堂

该文章从投稿到接收仅一个半月

机器学习目前在肿瘤和非肿瘤生信中越来越常见,不管是构建模型还是筛选关键基因,都有很出色的发挥。!
研究概述:

透明细胞肾细胞癌(ccRCC)是一种常见的高死亡率的泌尿系统恶性肿瘤,缺乏可靠的预后生物标志物会削弱其预测、预防和个性化医学(PPPM/3PM)方法的有效性。免疫原性细胞死亡(ICD)是一种特定类型的程序性细胞死亡,与抗癌免疫密切相关。然而,ICD在ccRCC中的作用尚不清楚。

本文基于AddModuleScore、单样本基因集富集分析(ssGSEA)和加权基因共表达网络(WGCNA)分析,在单细胞和批量转录组水平上筛选了ICD相关基因,开发了一种新的机器学习框架,该框架结合了10种机器学习算法及其101种组合,以构建共识免疫原性细胞死亡相关特征(ICDRS)。

作者在训练集、内部验证和外部验证集中评估了ICDRS,构建了ICDRS集成列线图,以提供定量工具来预测临床实践中患者的预后。此外还进行多组学分析,揭示了ICDRS与ccRCC预后和免疫状态之间的紧密关联。接着评估了风险亚组对免疫治疗的反应,并筛选了针对特定风险亚组的药物以进行个性化治疗。最后通过qRT-PCR验证了ICD相关基因的表达。

流程图:

研究结果:

一、单细胞转录组的免疫原性细胞死亡特征(ICDRS)

1. 作者使用单细胞RNA测序数据,利用不同细胞类型的标记基因,将细胞标注为十大类(图2a)。热图显示了每个细胞群的前四个标记基因(图2b)。

2. 使用Seurat软件包中的“AddModuleScore”功能来计算34个与ICD相关的基因集在所有细胞中的表达水平(图2c)。在10种细胞类型中,巨噬细胞、T细胞和单核细胞的ICD活性明显较高(图2d)。根据ICD活性将细胞分为高ICD组和低ICD组,并鉴定出两组之间836个差异表达基因(DEGs)


二、在RNA - seq中鉴定中心模块和与ICD相关的基因

1. 使用在单细胞序列水平上鉴定的836个ICD相关DEGs构建共表达网络(图3a),利用ssGSEA算法获得每个TCGA-KIRC样本的ICD活动评分,作为后续WGCNA分析的表型数据。对TCGA-KIRC数据集应用WGCNA分析,共获得4个模块(图3b)。

2. MEblue模块与bulk RNA-seq中的ICD评分密切相关(图3c)。蓝色模块的基因显著性(GS)与模块成员(MM)的散点图显示出显著的相关性(图3d),表明其可能具有与免疫原性细胞死亡相关的功能意义。

3. 火山图(图3e)显示了TCGA-KIRC bulk RNA-seq中肿瘤和正常肾脏组织之间的DEGs。


4. (图3f)将蓝色模块中的164个基因与bulk RNA-seq中的DEGs相交,最终鉴定出131个 ICDRgenes,它们被认为在整体和单细胞转录组水平上都参与了ICD。

5. ICDRgenes的GO富集分析(图3g)显示其富集于:生物过程(BP)中的T细胞活化、白细胞介导的免疫、抗原加工和呈递;细胞成分(CC)中的内吞囊泡和MHC蛋白复合物;分子功能(MF)中的酰胺结合、免疫受体活性和MHC蛋白复合物结合中。

6. 进行单因素Cox回归分析鉴定出39个p值小于0.05的显著基因。为进一步构建和验证模型,将TCGA基因列表与外部数据集E-MTAB-1980交叉比对,提取了37个共享基因。单变量Cox回归分析结果和这些基因之间的相互关系如图3h所示。

7.图3i分析了37个基因的拷贝数变异频率(CNV), RNF130的拷贝数增加频率超过22%。


三、基于集成机器学习构建预后特征

1. 将TCGA-KIRC数据集按1:1的比例分为训练集和内部验证集,在训练集中,用十倍交叉验证框架拟合了101个机器学习方法,并计算了所有训练集和验证集的C指数。

2. 使用十倍交叉验证框架,通过最小化部分似然偏差确定LASSO分析中的最佳λ值为0.035695(图4b, c)。对LASSO分析中非零系数的基因进行逐步Cox比例风险回归分析(向后),最终鉴定出6个基因(图4e)。

3. 图4d利用Cox模型中的回归系数对6个基因的表达进行加权,计算出每位患者的风险评分,从而根据中位风险评分将所有患者划分为高风险组或低风险组。随着风险评分的增加,经历死亡的患者人数也逐渐增加(图4f)。

4. 高危组患者的总生存期(OS)显著低于低危组患者(图4G-I)。同样,低危组的无进展生存期(PFS)和疾病特异性生存期(DSS)显著优于高危组(图4j, k)


四、ICDRS模型的强大性能

1. 受试者工作特征(ROC)曲线分析表明ICDRS具有强大的区分能力(图5a-c)。


2. 在TCGA-KIRC数据集中,作者观察到高危组和低危组之间的分级、分期、T和M分布存在显著差异 (图5d, f)。此外, M1、III-IV期、G3-4和T3-4期患者的风险评分显著高于M0、I-II期、G1-2和T1-2期患者 (图5e),提示ICDRS与ccRCC患者预后不良相关。


3. ICDRS可以预测ccRCC患者的M期。诊断性ROC曲线(图5g,h)分析显示,ICDRS预测ccRCC患者M期的AUC为0.721,提示其在预测ccRCC转移发展的临床应用潜力。

  1. KM曲线分析(图5 I-L)发现ICDRS在不同临床特征(包括年龄、性别、分期、分级和T)分层的ccRCC亚组中显示出强大的预后能力。


五、结合临床特征建立和验证列线图,为临床实践提供了定量工具

1. 图6a-c:在单变量分析中,ICDRS是OS、PFS和DSS的重要危险因素(HR>1, p<0.001)。在多因素分析中,ICDRS仍然是OS、PFS和DSS的独立预后因素,表明其在ccRCC患者中具有强大的预后能力。


2. 对E-MTAB-1980数据集中的OS进行了单因素和多因素Cox回归分析(图6d)。结果显示,ICDRS是ccRCC患者的独立预后因素,证实了该发现在不同数据集之间的一致性。

3. 图6e是基于ICDRS和临床特征构建的列线图。校准曲线显示列线图预测与实际观测结果之间具有良好的一致性(图6f)。列线图的AUC分别以1年、3年和5年的间隔达到0.867、0.830和0.814,表明其预测精度高 (图6g)。

4. C指数证明了列线图的稳定和强大的预测能力,在预测1至10年的OS方面优于其他临床特征(图6h)。决策曲线分析(DCA)表明,列线图临床疗效优于其他临床特征(图6i)。


六、ICDRS的潜在分子机制

1. 基于GO基因集的GSEA分析显示,低风险组富集了细胞死亡、细胞氮化合物分解代谢过程和跨膜信号受体活性的正调控(图7a),而高风险组富集了CD4阳性、α - β T细胞分化、吞噬、识别、抗菌体液反应和淋巴细胞迁移的正调控(图7b)。

2. GSVA分析显示,高风险组在与IL6_JAK_STAT3_SIGNALING、MYC_ TARGETS_V2和TNFA_SIGNALING_VIA_NFKB相关的通路中活性更强,而低风险组在与蛋白分泌、脂肪酸代谢和胆酸代谢相关的通路中活性更强(图7c)。

3. ICDRS与标志物通路评分之间的相关性分析(图7d)进一步表明ICDRS与癌症相关的生物学过程和代谢途径密切相关。

4. KM曲线分析显示与ICDRS呈正相关的通路与不良预后相关(图7f, g)。相反,与ICDRS负相关的途径都与良好的预后相关(图7e)。


七、不同ICDRS亚组的基因组变异景观和肿瘤内异质性

1. 肿瘤内异质性(Intra-tumor heterogeneity, ITH)是基因突变积累导致癌症的基因组特征,已被证明与恶性肿瘤和化疗耐药性增加有关。本研究使用突变等位基因肿瘤异质性(MATH)算法来测量ccRCC患者的ITH, MATH得分越高ITH越高。

2. 图8a:高危组ccRCC患者的MATH评分更高。

图8 b:MATH评分高的患者总生存期(OS)明显差于MATH评分低的患者。

图8c:结合ITH和ICDRS,作者发现“高风险+高MATH”组患者预后明显差于“低风险+低MATH”组患者,说明这两项指标联合使用可以更好地评估ccRCC患者的预后。


3. 图8d, e描绘了高风险组和低风险组之间明显的突变景观。此外,通过Fisher的精确检验,作者确认BAP1和SETD2的突变频率在高危组和低危组之间有显著差异,风险亚组之间不同的突变景观可以解释为什么ICDRS风险亚组表现出不同的预后状态。


4. 作者分析了高、低危人群中前25个突变基因的共现突变与排他突变的相关性,高危组共发生突变的频率更高(图8f)。

5. 图8g研究了ICDRS风险亚组之间差异最大的前30个基因的拷贝数变异(CNVs),在LRP2、SLC6A19和PCK1中CNV的增加是主要的改变,而在MAP7、SLC22A2、C1orf210和KL中CNV的损失是主要的改变,表明CNV的变化在控制基因表达方面发挥了作用。


八、ICDRS与单细胞特征的相关性

1. 作者分析了CNPY3、HLA-DPB1、KCTD12、LIPA、MIR155HG和TNFSF13B在不同细胞类型中的表达模式(图9a),这些基因主要在免疫细胞中表达,如巨噬细胞、单核细胞和树突状细胞。

2. 使用ICDRS模型公式计算单细胞转录组中每个细胞的ICDRS风险评分,并以肿瘤细胞为参照组进行Wilcoxon检验,发现肿瘤细胞、肥大细胞和B细胞的风险评分明显更高。

3. 将肿瘤细胞分为高、低风险评分组, ICDRS评分不同的肿瘤细胞通信模式不同(图9d, e)。


4. TME中不同的细胞类型可以在细胞通信中充当发送者、受体、介质和影响者,从而在细胞之间产生特定的信号。作者发现:低风险评分的肿瘤细胞与更多类型的TME细胞进行交流,并在APP信号、ITGB2信号和MK信号中发挥更强的介质和影响作用。因此,它们可能调节肿瘤细胞的粘附、分化和迁移,影响癌细胞的存活 (图9f-h)。


九、免疫微环境和免疫特性与ICDRS的相关性

1. 应用ESTIMATE算法评估ccRCC样本的免疫浸润状态(图10a):高危组免疫评分和ESTIMATE评分明显高于对照组,肿瘤纯度评分明显低于对照组。

2. 使用ssGSEA算法获得免疫相关通路评分(图10b):高危组在炎症促进、细胞溶解活性和T细胞共抑制途径上表现出明显更强的活性。

3. 使用CIBERSORT算法量化了每个样本中浸润的免疫细胞丰度(图10c):高危组中浆细胞、T细胞CD8、T细胞CD4记忆活化和T细胞滤泡辅助细胞更丰富,而无抗癌活性的细胞类型在低风险组中更为丰富。

4. 应用ssGSEA算法和Xcell算法进行验证得到了类似的结果(图10d)。


5. 此外ICDRS中有6个基因与肿瘤浸润性免疫细胞高度相关,其中MIR155HG与T细胞CD8和T细胞滤泡辅助细胞呈正相关,KCTD12和LIPA与巨噬细胞M2呈正相关(图10e)。

6. 通过Spearman相关分析鉴定出11种与ICDRS显著相关的免疫细胞类型(图10f),与ccRCC患者的预后显著相关。结合图10c、f,最终使用维恩图(图10g)确定了七种交叉的TME细胞类型。


十、ICDRS与抗癌免疫周期和免疫治疗反应的关系

1. 图11a:在ICDRS风险亚组之间观察到抗癌免疫周期的步骤2、3、4和6的显著差异。高危组在启动和激活(第3步)、免疫细胞转运至肿瘤 (第4步)和T细胞对癌细胞的识别(第6步)方面表现出更强的活性。

2. 进一步细化“第4步-免疫细胞向肿瘤转运”发现,高危组具有更强的招募免疫细胞的能力,如T细胞、CD8 T细胞、树突状细胞和B细胞(图11b)。


3.图11c:大多数免疫检查点在高危组中显著高表达。为进一步验证,分析了从TCIA数据库获得的IPS分数。更高的IPS评分预测对ICI治疗(分为四类,包括PD-1抑制剂和CTLA4抑制剂治疗)的更好反应。高危组CTLA4+/PD1+和CTLA4+/PD1−治疗的IPS均显著高于高危组,这表明高危组患者对抗CTLA4治疗以及抗pd -1和抗CTLA4联合治疗的反应优于低危组(图11d-e)。


.作者纳入了接受阿替利珠单抗治疗的IMvigor210队列,以进一步验证ICDRS对患者对免疫治疗反应的预测能力。使用ICDRS模型计算队列的风险评分,并将患者分为高风险和低风险组,高危组表现出更高的肿瘤突变负荷。检验显示,高危组完全缓解/部分缓解(CR/PR)比例显著高于低危组,而稳定/进展性疾病(SD/PD)比例显著高于低危组 (图11 g)。此外,CR/PR患者的风险评分明显高于SD/PD患者(图11h, i)。上述结果支持ICDRS预测免疫治疗疗效的能力,表明高风险组的患者可能从这种治疗中获得更大的益处。

十一、ICDRS与药物敏感性的相关性分析及基因表达验证

1. 晚期肾细胞癌(RCC)的一线治疗通常包括多靶点酪氨酸激酶抑制剂(TKIs)和mTOR抑制剂。作者的研究结果表明,低风险组舒尼替尼和帕唑帕尼的半最大抑制浓度(IC50)明显较低(图12a, b),风险评分与舒尼替尼和帕唑帕尼的IC50呈正相关(图12e, f)。

2. 相反,高风险组阿西替尼和替西莫司的IC50较低(图12c, d),风险评分与这两种治疗的IC50呈负相关(图12g, h)。这些发现提示低危组患者可能对舒尼替尼或帕唑帕尼治疗反应更好,而高危组患者可能对阿西替尼和替西莫司更敏感。

3. 作者基于高风险组和低风险组之间的前300个上调或下调基因进行了XSum分析,确定了CMap评分最低的前五种药物:MS-275、PHA-00816795、伊马替尼、法舒地尔和丁蛋白(图12i)。这些药物可以作为抑制癌症恶性发展的潜在治疗选择,具有作为ccRCC的干预和预防措施的潜力。


4. 最后评估了ICDRS中包含的6个基因在4个细胞系(1个正常细胞系(HK-2)和3个ccRCC细胞系(786- 0、Caki-1和Caki-2))中的表达,(图12j - 0)。结果显示,CNPY3、HLADPB1、KCTD12、LIPA、MIR155HG和TNFSF13B在肿瘤细胞系中显著上调。


研究总结:

本研究构建了一种免疫原性细胞死亡相关特征,可以作为ccRCC预后预测,靶向预防和个性化医疗的有希望的工具。将ICD纳入PPPM框架将为临床智能和新的管理方法提供独特的机会。此外从基因组学、单细胞转录组学和批量转录组学的角度对ccRCC发展和进展的分子机制提供了新的见解。

上一篇下一篇

猜你喜欢

热点阅读