这个4+分的小2区冷门杂志你这样分析还能去发
今天和大家分享的是2020年2月发表在Epigenomics(IF:4.112)上的一篇文章,“A risk prediction model of DNA methylation improves prognosis evaluation and indicates gene targets in prostate cancer”。作者将来自TCGA 前列腺癌的临床数据随机分为训练集和验证集,联合训练集数据以及DNA甲基化数据进行LASSO回归,建立风险预测模型,在验证集中进行验证。对RNA-seq数据进行差异表达分析,筛选出DEGs后进行WGCNA,以确定治疗靶点。最后,作者对筛选出来的靶标进行功能验证,证实FOXD1的敲减可以抑制PCa的细胞增殖,迁移和侵袭。
A risk prediction model of DNA methylation improves prognosis evaluation and indicates gene targets in prostate cancer
DNA甲基化的风险预测模型可改善预后评估,并提示前列腺癌的基因靶标
一、 研究背景
前列腺癌(PCa)是男性第二常见的癌症,由于特异性抗原检查的出现,很多患者可以在早期诊断出病变。但对于晚期的患者,临床常用的病理学诊疗手段缺乏特异性和敏感性。同时,异常的DNA甲基化水平与基因的表达水平相关。因此,作者希望通过DNA的甲基化构建一个风险预测模型,并结合该模型以及基因表达特征,找到与PCa风险有关的治疗靶点,从而更加有效的预防和治疗晚期PCa。
二、 分析流程
三、 结果解读
1. 风险预测模型的CpG位点
作者对TCGA-PCa的DNA甲基化、RNA-Seq和临床数据进行筛选。
Table1展示了参与本研究的201份临床数据的信息。
对于TCGA中的DNA甲基化样本,作者选择了有相关基因信息注释的CpG位点进行分析。对这543个样本进行U检验。通过KM生存分析筛选出2872个CpG位点,然后再通过COX回归分析得到120个CpG位点。
Table1:参与本研究的201位患者的临床病理学信息
2. 风险预测模型的构建
作者使用R的caret包将201个临床数据样本随机分为训练集和测试集。对训练集样本和上述筛选的120个CpG位点进行LASSO回归(R的glmnet包),构建了一个由6个CpG位点组成的模型,得到风险评分公式。
作者使用训练集的5年生存的ROC曲线,得到了生存评分的cut-off点0.01,将这个数值作为后续判断的患者危险状态的标准。
Table2:详细说明了组成该风险预测模型的6个CpG位点的信息。
1A:通过交叉验证获得最小分类错误
1B:基于最小分类错误,获得参与构建模型的位点及其系数。
1C-E是训练组的图像,F-H是验证组的图像。
C&F展示了风险分数以及基于cut-off值的风险分类。
D&G展示了患者的生存结果与临界值之间的关系,从中可得:当模型中的个体风险得分大于0.01时,预后不良的概率更高。(0表示健康,1表示死亡/复发)
E&H展示了模型中6个CpG位点的热图:可见在低风险组和高风险组中,这6个CpG位点的表达情况是不同的。
Table2:风险预测模型中6个CpG位点的详细信息
图1:LASSO回归得到的风险预测模型
3. 验证风险预测模型的有效性
2A:训练集的3,5,7年的TdROC曲线。AUC值均大于0.8 。结果表明,该风险预测模型具有良好的风险分层性能。
2B-D:KM生存分析绘图。B为训练集数据,C为验证集数据,D为总集数据。结果表明,基于风险预测模型的风险评分与所有组的预后都有关。风险评分越高,预后越差。
Table3:临床病理变量与危险状态之间的关系。在这里,作者对分类变量进行卡方检验/Fisher精确检验,对连续变量进行U检验。结果表明,Gleason评分,TNM(T)以及特异的因癌症死亡/生化复发与该预测风险模型有关。
图2:验证该风险预后模型的有效性
Table3:危险状态与临床病理变量之间的关系
4. 临床病理变量和风险预测模型的单因素&多因素COX回归
为了验证风险预测模型是否可以作为独立的预后预测因子,作者进行了单因素和多因素COX回归。
Table4:临床病理变量和风险预测模型的单因素&多因素COX回归的详细信息。
单因素COX回归,结果表明:风险预测模型,TNM(T),TNM(N),Gleason评分是PCa患者预后的风险因子。
选取上述四个因子,参与多因素COX回归,结果表明:风险预测模型和TNM(N)可以作为预后因子。
3:TdROC曲线。结果表明风险预后模型比TNM(N)的分层效果更好,而将这两个因子结合起来的AUC值并没有更大,这提示:风险预测模型可以单独作为预后的预测因子。
Table4:临床病理变量和风险预测模型的单因素&多因素COX回归的详细信息
图3:201名患者的多变量tdROC曲线
5. 通过WGCNA探究与风险预测模型相关的关键遗传模块
作者从RNA-seq数据中筛选出蛋白质编码的基因,使用R的DESeq2包进行了差异表达分析,筛选出2976个DEGs。将这2976个DEGs作为WGCNA的输入数据,发现遗传共表达模块与风险预测模块呈正相关。作者在MM> 0,GS> 0和p <0.05的条件下从关键模块中选择了123个基因,为中心基因(hub genes)。
4:WGCNA的结果。DEGs共有12个显著的模块,黄色的模块显示出与风险预测模型最高的相关性。其中共有180个基因,陈列在补充材料的Table5中。B图为拓扑重叠度量相邻矩阵的热图,颜色越深,遗传相似性越高。
图4:WGCNA的结果
6. 候选中心基因的富集分析
作者将123个候选中心基因导入在线网站Metascape,进行功能富集分析
5A:作者展示了功能富集分析结果中的前20个条目。进行相关文献研究后,作者圈出了5个与PCa生物学机制相关的条目。
5B:聚类网络:作者根据在Metascape上的数据处理方法:相似度得分>0.3的条目通过一条边连接,形成一个聚类网络。选择了包含上述五个条目的簇,命名为关键簇。
图5:功能富集分析结果
7. 目标基因的识别
作者使用R的ggstatsplot包,对123个候选中心基因的MM值和GS值进行斯皮尔曼相关分析。
6A:123个候选中心基因的MM和GS.riskscore之间的关系。作者选择了大于MM和GS均值的基因进行下一步的研究。
6B和C:作者将选择的基因和关键簇中的基因取交集,获得了22个候选中心基因。在GEPIA数据库中对中22个基因进行差异表达分析。
6D-G:最终筛选出4个中心基因:FOXD1、INSM1、PLA2G7和SH3RF1。其中FOXD1和INSM1此前没有与PCa相关的研究成果。
在补充材料图1-4中展示了这四个中心基因在肿瘤样本和配对的正常组织的基因表达图,发现FOXD1在癌症中更高表达。
图6:中心基因的选择
7. 体外实验:FOXD1的敲除抑制细胞增值,迁移和侵袭
在这里作者使用lentiviral FOXD1-shRNA进行敲除。
7A+B:FOXD1的mRNA和蛋白的表达水平:对比正常细胞系,PCa的表达要多得多。在PC-3细胞系中表达最高,其次是DU145 。这两种细胞系都来自雄激素独立以及高度侵袭性的PCa。
7C+D:作者使用qRT-PCR和WB对敲除的效率进行验证。结果发现,敲除后的FOXD1表达大大的降低了。
7E:CCK-8实验:敲除FOXD1后,细胞增殖速率显著降低。
7F+G:克隆形成实验:敲除FOXD1后,克隆形成的水平显著降低。
7H+I:细胞划痕实验:细胞迁徙能力显著降低。
7J+K:细胞迁徙侵袭实验:细胞的侵袭能力大大减弱。
图7:体外实验:FOXD1的敲除抑制细胞增值,迁移和侵袭
小结
在研究中,作者构建了包含六个CpG位点的PCa患者的风险预测模型,还通过该模型对患者的风险状态进行分层。此外,作者使用WGCNA等方法筛选出与预后不良相关的治疗靶点FOXD1,并验证了该靶标的可行性。
点击阅读原文,即可获得小编本次与大家分享的文章。本期的分享就到这里啦,下一期再见~
科研菌学术讨论群,在群内可以用自己的昵称,广告一律踢;其他公众号的宣传也不发,就算是要发,提前和小编商量和确认,不然也是一律踢哈。
欢迎添加小编微信↑↑↑
请大家加我的时候就备注好“学术讨论群”以及自己的“单位+专业+姓名”
编辑:螺蛳粉
校审:糯米饭