基因集研究新思路,特定基因集结合 Depmap数据库的CRISP
影响因子:6
研究概述:低级别胶质瘤(LGG)被认为是中枢神经系统最常见的原发性肿瘤之一,包括WHO定义的II级和III级胶质瘤。除了传统疗法外,新兴的基因编辑系统也越来越受到关注。CRISPR/Cas9系统广泛存在于原核生物基因组中,是一种进化为应对病毒和质粒入侵的获得性免疫防御机制。该系统主要由Cas9蛋白和单链向导RNA(sgRNA)组成。Cas9蛋白在sgRNA的引导下识别特定的DNA序列,通过碱基互补配对原理切割不同的靶位点,从而实现DNA双链的断裂。Hippo通路的异常信号传导还与多种病理过程有关,包括癌症和免疫相关疾病。YAP/TAZ是Hippo通路下游的主要转录共激活因子。在本研究中,作者利用CRISPR-cas9在内的多种生物信息学工具识别了与Hippo信号通路相关的基因及其对癌症风险的潜在影响。具体研究如下:
本文的亮点是使用了Depmap数据库的CRISPR-cas9 screening data,得到的基因是与细胞增殖显著相关的基因,与直接用Hippo通路效果更好。其他的分析则都很普通。
结合Depmap数据库进行生信分析,欢迎交流!
研究结果:
确定低级别胶质瘤中功能基因组
作者首先寻找LGG差异表达基因(图A)。接着,作者还探究了癌基因根据其对其他基因的依赖性的得分(分数越低,代表敲除该基因对细胞增殖抑制效果越好)。作者把所有胶质瘤细胞系中依赖性得分低于-0.5的基因与在TCGA中上调的基因相交,最终得到145个基因。还把所有胶质瘤细胞系中依赖性得分高于0.5的基因与在TCGA中下调的基因相交,获得了6个基因(图C)。这145个基因被指定为癌基因。在GO分析中,富集水平最高的三个通路为纺锤体组织、剪接体复合物和核糖核蛋白复合物结合(图D)。而KEGG分析结果表明这些癌基因在细胞周期、Hippo信号通路和其他通路中存在富集(图E)。
基因特征的创建和验证
接下来,在Lasso回归模型的计算下,共筛选出19个基因并用于构建风险评分。在内部训练数据集中,以0.752324的中位风险评分作为阈值,将患者分为低风险组和高风险组,其他验证数据集中也使用了相同的阈值。在建模集中,低风险组患者的总体生存(OS)明显优于高风险组患者。生存曲线的分析结果表明,具有高风险特征的LGG患者3年生存率约为56.34% [47.18–67.3%]。低风险特征的LGG患者3年生存率约为97.2% [93.9–100%]。在高风险LGG患者中,5年生存率约为37.58% [27.45–51.4%],明显低于低风险LGG患者的89.3% [78.86–100%];10年生存率在高风险LGG患者中约为12.54% [5–31.4%],而低风险LGG患者则约为65.1% [43.50–97.3%]。根据不同时间段的ROC曲线分析结果,1、3和5年的AUC分别为0.865、0.910和0.874。在内部验证数据集中,从Kaplan–Meier曲线观察到高风险组患者的OS时间显著短于低风险组患者,具有统计学显著性差异(p值 < 0.05)。生存曲线的分析结果显示,高风险LGG患者的3年和5年生存率分别约为60.3% [47.2–76.9%]和36.3% [20.4–64.5%]。在低风险LGG患者中,3年和5年的生存率分别约为89.1% [79.2–100%]和62.6% [44.0–89.0%]。对1、3和5年的ROC曲线分析得到的AUC值分别为0.861、0.878和0.690。
并且在整个TCGA-LGG数据集中(图A、B,p值 < 0.001,HR: 1.060,95% CI 1.036–1.085)以及外部验证CGGA-LGG数据集中(图C、D,p值 < 0.05,HR: 1.016,95% CI 1.003–1.029)和GEO-LGG数据集中(图E、F,p值 < 0.001,HR: 1.171,95% CI 1.074–1.276),风险评分被证明是一个独立的预后特征。
对于低风险队列,根据性别、年龄、肿瘤等级,以及ATRX、EGFR、PTEN、TP53和IDH的突变状态进行分组后,OS在高风险组中依然表现出较好的结果(图A–F)。
高低风险亚群之间的差异表达基因(DEGs)识别
在CGGA-LGG-1数据集中,作者通过计算高风险组和低风险组之间的DEGs,共识别出328个差异表达基因(图A、B)。这些结果表明上述DEGs在GO分析中富集于细胞外基质结构成分、含胶原的细胞外基质和细胞外基质组织(图C)。此外,KEGG分析显示这些基因在p53信号通路、Hippo通路和P13K-Akt信号通路中也有显著富集(图D)。有趣的是,Hippo通路在前文提及的特征基因和DEG富集分析中均显示为调节细胞生存的关键机制。接着,作者在CGGA-LGG-1数据集中,为识别关键基因,采用了WGCNA方法(软阈值功率设定为10)(图E),共聚类出16个模块(图F)。结果发现,不同模块与高风险组相关联(图G),包括黄绿色模块(相关系数=0.29,p值 < 0.001)、粉色模块(相关系数=0.28,p值 < 0.001)和灰色模块(相关系数=0.34,p值 < 0.001)。来自CGGA-LGG-1数据集的基因与145个癌基因重叠,共得到13个基因(图H)。
在临床样本中验证SOX9、RPE65、LSM2
KEGG富集分析显示,富集程度最高的三个通路包括Hippo通路、剪接体(图A)。在GO分析中,这13个基因富集程度最高的前三项为核糖体、核糖体亚基和核糖体的结构组成成分(图B)。在13个重叠基因中,有三个基因(SOX9、RPE65、LSM2)富集于Hippo通路。为了验证从生物信息学分析中获得的关键基因(SOX9、RPE65、LSM2)的可靠性,zz结合GTEx数据库中的正常皮层样本,探讨了这些关键基因在LGG样本中的异常表达情况。结果显示,这三个关键基因在肿瘤样本中均高度表达(图C)。此外,作者收集了10例LGG样本和10例正常脑组织,通过qRT-PCR和WB检测关键基因的表达水平。在qRT-PCR结果中,RPE65的mRNA水平在LGG样本中高度表达,但其他基因在不同样本中的表达没有显著差异(图D)。在Western blot结果中,RPE65和LSM2的蛋白水平在LGG样本中高度表达(图E)。
最后,作者使用IHC切片进一步检测SOX9、RPE65、LSM2的表达(图7)。显然,这三个基因在公共数据库和我们的队列中的IHC表达存在显著差异。重要的是,RPE65的蛋白和mRNA表达在不同队列的肿瘤细胞中显著上调。
体外实验
最后,RPE65被筛选为候选分子,用于进行细胞功能实验。qPCR分析表明,RPE65在三种胶质瘤细胞系中的表达显著上调(图A)。通过WB和qPCR检测sh-RPE65的敲低效率,结果显示在T98G和U87细胞中转染效率最高(图B、C)。CCK-8实验显示,敲低RPE65后,T98G和U87细胞的存活能力受到抑制(图D)。并且,转染后肿瘤细胞系的侵袭和迁移能力受到抑制(图E、F)。
研究总结:
本研究结合CRISPR-Cas9筛选数据和TCGA数据库,识别并验证了LGG中与生存相关的关键基因。作者通过基因表达和生物信息学分析,构建了一个由19个基因组成的风险评分模型,能够有效区分高低风险患者,且在多个内部和外部数据集中得到验证。分析显示,这些基因富集于Hippo信号通路,这一通路对LGG细胞的生存和增殖具有关键调控作用。通过qRT-PCR、Western blot及免疫组织化学在临床样本中验证了关键基因SOX9、RPE65和LSM2的表达水平,进一步在体外实验中证实了RPE65在胶质瘤细胞中的功能性作用。Hippo信号通路和RPE65等关键基因可能成为LGG的新型治疗靶点,为精准治疗提供了潜在的策略。