文章套路TCGA数据挖掘文章思路

TCGA数据库挖掘-肾细胞癌相关biomiarker筛选案例解析

2019-11-16  本文已影响0人  组学大讲堂

嫌色细胞癌属于肾细胞癌的一种,约占4-5%。利用公共数据库数据筛选此类癌症的相关biomarker进行有效的临床诊断和预后也是公共数据分析的一个方向。这里就给大家介绍一篇文献:利用WGCNA鉴定嫌色细胞癌biomarker。

数据来源

从TCGA数据库下载嫌色细胞癌样品相关数据,共获取66/25个相关样品的表达谱数据,同时得到临床性状。同时利用GEO数据库下载数据(GSE15641)后期筛选和验证分析。

数据分析

1.数据处理与差异分析

从TCGA数据库获取的表达谱数据,利用R包“DEseq2”进行差异表达分析,进而筛选差异基因。最终以adj.P.value<0.05  & |log2FC| ≥0.585,获取了2215个差异基因(1748 up-regulated / 384 down-reguated)。GSE15641数据利用GEO2R进行差异分析,基于P.value<0.05 & |log2FC|>1 筛选到1794 个差异基因(884 up-regulated / 910 down-reguated),该部分筛选结果用于biomarker的相关验证。

2.加权基因共表达网络分析

TCGA数据筛选出的2215个差异基因参与WGCNA分析,power值选定5(R2>0.85),最终获得8个有效模块(加上grey为9,见下图A),结合临床性状分析结果表明Brown模块与pathologic_stage、survival_status等相关性更明显(见下图B)。

其中Brown模块内GS与MM分析结果显示,该模块内的基因与pathologic_stage显著相关(见下图),并基于MM高于0.8,GS高于0.2 筛选出了39个基因进行后期分析。

3.重要模块基因功能富集

针对Brown模块内的基因功能进行富集,从而判断这些差异基因在嫌色细胞癌中所起到的主要作用,GO富集结果显示,有丝分裂细胞周期转换、有丝分裂纺锤体组装、有丝分裂纺锤体组织,细胞周期的调节过程等相关功能显著富集;KEGG富集结果表明,细胞周期、卵母细胞减数分裂、孕酮介导的卵母细胞成熟等途径显著富集(见下图)。

4.蛋白互作分析

为探索基因之间的蛋白互作关系,利用string数据库进行分析,最终基于brown模块所有基因获取了一个蛋白质互作网络,并借助Cytoscape软件中的MCODE软件,以k-core=2等阈值,筛选出其中关系最紧密的子网络,涉及了32个基因(下图),其中和基于模块和性状分析筛选的39个基因的重合有29个,该部分29个基因作为候选基因进一步验证。

5.筛选与验证

29个候选基因,结合GSE15641筛选到的差异基因,属于共有的基因有4个,其中变化趋势一致的有三个:SKA1、ERCC6L、GTSE1,此三基因在癌症样本和正常样本表达和统计分析情况见下图(A:TCGA,B: GSE15641)。

此外,进一步于GEPIA网站进行KM生存分析,最终结果显示SKA1、ERCC6L和总体生存时间更显著相关(见下图)。

结论

作者利用TCGA和GEO数据库中两项数据进行了嫌色细胞癌biomarker基因的挖掘分析,并且利用了多个在线网站工具进行了功能和互作网络方面的验证,最终结合前人的研究和自己的验证分析发现了两个基因SKA1、ERCC6L对于嫌色细胞癌的临床预后可能具备重要作用。

参考文献:Yin, X. , Wang, J. , & Zhang, J. . (2018). Identification of biomarkers of chromophobe renal cell carcinoma by weighted gene co-expression network analysis. Cancer Cell International,18(1).

如果你对TCGA数据挖掘有兴趣的话,可以学习我们的TCGA相关课程。

《TCGA-生存分析》

https://study.163.com/course/introduction/1005645022.htm?share=1&shareId=1031484705

 《TCGA-ceRNA调控网络分析》

https://study.163.com/course/introduction/1006360042.htm?share=1&shareId=1031484705

《TCGA-转录因子调控》

https://study.163.com/course/introduction/1005807030.htm?share=1&shareId=1031484705

更多技能学习链接:

http://m.study.163.com/provider/400000000234009/index.htm?share=1&shareId=1031484705

更多生物信息课程:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程基因家族文献思路解读

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘转录组文献解读

5.微生物16S/ITS/18S分析原理及结果解读OTU网络图绘制cytoscape与网络图绘制课程

6. 生物信息入门到精通必修基础课,学习链接:linux系统使用perl入门到精通perl语言高级R语言画图

7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接:TCGA-差异基因分析GEO芯片数据挖掘GSEA富集分析课程TCGA临床数据生存分析TCGA-转录因子分析TCGA-ceRNA调控网络分析

8.其他课程链接:二代测序转录组数据自主分析NCBI数据上传二代测序数据解读

上一篇下一篇

猜你喜欢

热点阅读