多种程序性死亡+分型+百种机器学习识别关键基因+实验验证,最近比
影响因子:5.7
研究概述:骨肉瘤是一种在骨组织中发展的极具侵袭性的癌症,主要影响儿童和青少年。骨肉瘤的特征是基因表达异常,这对肿瘤细胞的起始和进展产生重大影响,与骨肉瘤相关的主要分子通路包括 STING/IRF3/IFN-b、PI3K/AKT 和 mTOR 信号转导通路。考虑到骨肉瘤发病机制的复杂性及其分子景观的异质性,识别影响预后的关键基因并构建简单而有效的预后模型至关重要。随着癌症生物学研究的进步,程序性细胞死亡(PCD)与恶性肿瘤之间的相互作用受到广泛关注,被认为是恶性肿瘤发生的关键组成部分。随着研究的进展,越来越多的研究人员开始关注 PCD 和骨肉瘤发生之间的相关性。更深入地了解不同形式的程序性细胞死亡及其在恶性肿瘤发展中的作用将为癌症预防和治疗提供新的见解和靶点。本研究整合了多种机器学习算法,为与程序性细胞死亡(PCD)相关的骨肉瘤创建了预后模型。基本假设是,结合各种算法将更好地捕获复杂的基因相互作用并提高预测准确性。目标是提高骨肉瘤患者预后预测的准确性,并确定个性化治疗策略的潜在靶点
目前多种细胞死亡模式相关相信文章易发表且分数高。另外,也可以类比多种代谢通路,多种蛋白修饰方式等等模式。欢迎想进行相关生信分析的朋友。
研究结果:
鉴定差异表达基因和预后相关基因
在训练集中,发现 246 个基因在骨肉瘤样本及其相应的邻近正常组织之间差异表达。其中,145 个基因表现出显著的下调,而 101 个基因表现出显著的上调(图 1A、B),从中共鉴定出 30 个预后相关基因,并使用森林图进行可视化,包括 24 个保护基因 (如 CLTCL1、 CALCOCO2、 MLH1、 MTM1 和 ZDHC3)和 6 个风险基因(包括 BAG1、 CD36和 CRIP1)(图 1C)。作者还使用了circos 图来说明这些预后相关基因之间的相互联系。基因之间的表达相关性由连接它们的线条表示(图 1D)。条形图来显示影响预后相关基因的拷贝数变异(CNV)的频率,重点关注频率高于4%的基因,拷贝数增加的值得注意的基因包括 SQLE、 PTGIS 和 STAT5B,而缺失的基因包括 MFN2、 DOK2和 EDIL3(图 1E)。此外,圆图描绘了这些高频 CNV 影响基因的染色体位置:MFN2 在 1 号染色体上,EDIL3 在染色体上,SQLE 和 DOK2 在 8 号染色体上,STAT5B 在 17 号染色体上,PTGIS 在20号染色体上,特别是 3、 5、 8 和 17号染色体在骨肉瘤中表现出高频率的 CNV 事件(图 1F)。
揭示骨肉瘤亚型的建立和机制分析
采用 ConsensusClusterPlus R 包来确定无监督聚类的最佳聚类数量,将 TARGET-OS 样本分为亚型 A 和 B(图 2A),通过CDF变化率曲线上的拐点来确定最佳聚类数(图 2B、C)。生成热图以显示每个样本的亚型和临床信息(图 2F)。使用tSNE和UMAP算法将骨肉瘤表达矩阵降维为二维(图 2D)。Kaplan-Meier(KM)曲线进一步验证了亚型之间的预后差异,亚型 B 的生存结果优于亚型 A(图 2E)。随后进行了深入分析,以揭示亚型之间预后差异的分子机制。limma 包促进了亚型之间预后相关基因的差异表达分析,结果通过箱线图表示(图 3A)。ssGSEA 算法计算了每个训练集样本中 33 种不同免疫细胞类型的丰度。箱形图可视化了亚型之间免疫细胞表达水平的差异(图 3B)。在 24 种免疫细胞类型的丰度中观察到显著差异,除 9 种细胞类型外,所有免疫细胞类型在亚型 B 中均更丰富。GSVA 算法用于检查亚型之间的差异富集途径,热图突出显示了具有显著富集差异的前 20 条通路,这些通路均在亚型 B 中上调(图 3C)。GSEA 曲线描绘了每种亚型中最丰富的前五条途径(图 3D、E)。亚型 A 在粘着斑和神经活性配体-受体相互作用通路中显示出显著的上调,而亚型 B在造血细胞谱系和趋化因子信号通路通路中表现出显著上调。此外,三种途径——细胞粘附分子 (CAM)、细胞因子细胞因子受体相互作用和细胞外基质 (ECM) 受体相互作用——在两种亚型中均显著上调。
机器学习集成模型的构建
机器学习算法的集成总共产生了 101 种可能的组合。最优模型是由 RSF 算法构建的模型,该模型表现出最高的平均一致性指数和相对较低的一致性指数变异性。该模型的评分系统称为 OSPCDS。RSF 算法生成的模型在所有三个 GEO 验证集中排名最高,平均 C 指数为 0.943(图 4A)。在变量选择过程中,RSF 算法识别了所有 5 个预后相关基因,即 MTM1、 MLH1、 CLTCL1、 EDIL3 和 SQLE。这五个基因的 mRNA 表达水平在骨肉瘤样本和邻近正常组织之间显示出显着差异,如箱线图所示(图 4B)。通过将来自所有数据集的临床信息与 OS-PCDS 整合,开发了一个列线图模型来预测 OS 患者的预后(图 4C)。
机器学习集成模型的验证
对过去五年发表的骨肉瘤预后模型进行了比较分析。训练集和验证集的 C 指数均使用森林图表示,差异显著性用星号表示。在所有三个 GEO 验证集、TARGET-OS 训练集以及来自三个验证集的组合元队列中,OS-PCDS 在 C 指数值中始终排名最高(图 5A)。根据训练集中的中位 OS-PCDS 值将样本分类为高风险或低风险。每个数据集的 Kaplan-Meier 图显示,在训练集和三个验证集中,高风险组和低风险组之间的生存差异 (p < 0.05)。在所有数据集中,低风险组的预后始终优于高危组(图 5B-E)。
在训练集和验证集中,PCDS 在 1 、 2 、 3 、 4 和 5 年的曲线下面积 (AUC) 值均使用受试者工作特征 (ROC) 曲线计算。TARGET、GSE16102、GSE21257 和 GSE39058 队列的 5 年 AUC 值分别为 0.994、0.906、0.959 和 0.769(图 6A-D),表明该模型具有出色的稳定性。Violin 图显示亚型 A 和 B 之间 OS-PCDS 风险评分存在显着差异,亚型 B 的风险评分较低,预后结果较好,而亚型 A 的风险评分较高,与较差的生存率相关(图6E)。此外,Sankey 图(图 6F)显示高风险和低风险类别的分布与 A 和 B 亚型之间存在显著相关性。
使用 ESTIMATE 分析,创建小提琴图以描述基质评分和免疫评分的显著差异(图7B)。然后应用 CIBERSORT 算法来确定每个样品中 22 种不同免疫细胞类型的丰度(图 7A)。小提琴图显示低 OS-PCDS 组记忆 B 细胞和巨噬细胞 M2 细胞增加,而高 OS-PCDS 组幼稚 B 细胞和静息树突状细胞水平升高。相关散点图进一步验证了这些免疫细胞与 OS-PCDS 之间的关系(图 7C-F),热图展示了免疫细胞丰度与五个模型基因的表达水平之间的相关性(图 7G)。
评估模型基因的 mRNA 表达水平
与骨肉瘤样本相比,癌旁正常组织中 CLTCL1、 MTM1 和 MLH1 基因的 mRNA 表达水平显著升高。另一方面,与邻近正常组织相比,骨肉瘤样本中 SQLE 和 EDIL3 基因的表达水平要高得多(图 8A)。间充质干细胞 (MSCs) 和三种不同骨肉瘤细胞系 (HOS、MG63 和 U2OS) 中模型基因的定量聚合酶链反应(qPCR)分析显示 MSCs 和骨肉瘤细胞系之间 MLH1 和 MTM1 基因的表达水平没有显著差异。然而,与 MSC 相比,骨肉瘤细胞系中 EDIL3 和 SQLE 基因的 mRNA 表达水平显着升高。此外,MSC 中的 CLTCL1 基因表达显著高于骨肉瘤细胞系(图 8B)。
编码蛋白质的模型基因的表达水平
在邻近正常组织中,CLTCL1 的蛋白表达水平显著高于骨肉瘤标本中观察到的蛋白表达水平。相反,与邻近正常组织相比,骨肉瘤样本中 SQLE 和 EDIL3 的蛋白表达水平显着升高(图 9A)。此外,与 MSC 细胞系相比,人骨肉瘤细胞系的 SQLE 和 EDIL3 蛋白表达水平显著升高,而 CLTCL1 在 MSC 细胞系中的蛋白表达水平显著高于人骨肉瘤细胞系(图 9B)。
基因敲低对骨肉瘤细胞增殖能力的影响
为了评估 OS 细胞(U2OS)中 CLTCL1、 SQLE 和 EDIL3 基因的差异表达,作者进行了单个基因沉默,并评估沉默组和对照组之间增殖能力的差异。在 CCK8 测定中,si-CLTCL1 组的光密度(OD)值从第一天开始显著增加,与对照组形成显著对比。相反,si-SQLE 组的 OD 值从第 2 天开始显着降低,表明与对照组存在显着差异。同样,与对照组相比,si-EDIL3 组从第一天开始就表现出 OD 值的显着降低(图 10A)。集落形成测定的结果显示,与对照相比,CLTCL1 敲低组中的 OS 细胞克隆数量显著增加。相比之下,SQLE 敲低组中的 OS 细胞克隆数量显著减少。此外,EDIL3敲除组也显示 OS 细胞克隆数减少(图 10B)。
基因敲低对骨肉瘤细胞迁移能力的影响
细胞划痕测定的结果显示,与 0 小时时间点相比,所有四个细胞组在 24 小时后均表现出愈合。此外,与对照组相比,用 CLTCL1 基因敲低处理的 OS 细胞显示出迁移能力显着增强,而用 SQLE 和 EDIL3 基因敲低处理的 OS 细胞表现出较弱的迁移能力(图 11)。
敲低模型基因对骨肉瘤细胞凋亡率的影响
下面的条形图描述了不同组之间细胞凋亡率的比较(图 12)。与对照组相比,敲低 CLTCL1 基因后骨肉瘤细胞凋亡率显著降低,而 SQLE 基因敲低和 EDIL3 基因敲低后显著增加。
单细胞分析
下GSE162454 数据集包括 6 个骨肉瘤样本,经过各种分析,并对结果进行了比较以确保有效性。通过 Seurat 降维聚类识别的细胞子簇和来自 singleR 的注释已知细胞类型使用 UMAP 图直观地表示(图 13A、B)。气泡图描述了细胞子集群之间的对应关系(图 13D)。此外,利用 UMAP 和 violin 图来说明单个细胞亚簇内模型枢纽基因的表达水平(图 13C)。一个值得注意的发现是 EDIL3 表达的显著上调,特别是在软骨细胞和组织干细胞中。
OS-PCDS 相关抗癌药物的鉴定
小提琴图清楚地说明了高 PCDS 组和低 PCDS 组之间药物敏感性的显著差异,突出了一组具有不同反应的 34 种药物。具体来说,包括 Acetalax、BI-2536、Daporinad 和 Lapatinib 在内的 8 种药物在低 PCDS 组中显示出敏感性增加(图 14A)。相比之下,26 种药物,如阿昔替尼、达拉非尼、恩托替尼和米托蒽醌,在高 PCDS 组中表现出更高的敏感性(图 14B)。
研究总结
这项研究发现,构成 OS-PCDS 模型的 5 个基因 CLTCL1、 MTM1、 MLH1、 EDIL3 和 SQLE 显著影响骨肉瘤细胞的增殖、迁移和凋亡,突出了它们作为关键预后标志物和治疗靶点的潜力,同时OS-PCDS 能够准确评估骨肉瘤患者的预后。总之,虽然目前的研究为骨肉瘤的预后建模提供了一个强大的框架,但通过未来的研究和验证工作来解决其局限性对于将这些发现转化为临床实践至关重要,该模型的不断完善和验证将确保其在改善患者预后方面的长期效用和有效性