Week23 — WGCNA分析+公共数据库挖掘你感兴趣的癌症
第23周 2018 — 10.21-10.27
原文链接: Application of weighted gene co-expression network analysis to identify key modules and hub genes in oral squamous cell carcinoma tumorigenesis
DOI:10.2147/OTT.S171791
期刊:Onco Targets Ther.
影响因子:2.656
导读
这是一篇完全基于公共数据挖掘,没有做任何实验的文章,充分利用了多种数据库、网络软件和工具,除了WGCNA的分析过程,其他部分不需要编程基础。而WGCNA的分析教程太多太多,优秀的如:
另外值得一提的是这篇文章发表的期刊:OncoTargets and Therapy,影响因子2.656,但是见刊速度惊人,从投稿到见刊总用时平均不超过2个月。如果是急于毕业等需要这种类型的文章,这篇文章的研究方法(套路)可以参考,该类型的期刊也可以关注下。
研究方法
用到的数据库详细介绍
1. GEPIA (http://gepia.cancer-pku.cn/)
Tang, Z. et al. (2017) GEPIA: a web server for cancer and normal gene expression profiling and interactive analyses. Nucleic Acids Res, 10.1093/nar/gkx247.
GEPIA是2017年北京大学开发的一个肿瘤和正常基因表达的集分析和可视化的交互网站平台。目前包括9736个肿瘤样本和8587个正常样本,数据分别来自TCGA数据库和GTEx。
可以做的分析有:
-
单个基因分析:
任意输入一个基因symbol,General信息里会给出该基因研究现状的一个summary;基因的平均表达值在tumor和normal的bodymap中的分布;在不同癌症
癌症类型中的表达(包括dot plot, bar plot); 还给出了该基因的相似基因。同时还包括差异分析,定制表达谱图分析,生存分析,相关性分析,PCA等。
单基因分析 -
癌症类型分析:
给定一个癌症类型,用常用的统计学方法和阈值做差异基因分析以及基因在染色体上的分布;还包括和癌症类型最显著相关的基因的生存分析 -
多个基因分析:
包括多个基因比较,相关性分析,降维 -
应用范围:
该数据库主要用于癌症分析,如果有感兴趣的基因,可以使用该网站做差异、聚类、相关性和生存分析。
2. Human Protein Atlas database (https://www.proteinatlas.org/)
人类蛋白质数据库是2003年由瑞典人发起的,旨在利用不同的组学技术(包括抗体成像、质谱、转录组学和系统生物学等方法)绘制细胞、组织和器官中的所有人类蛋白质图谱。
包括三部分,组织、细胞和致病图谱:
-
Tissue Atlas
展示蛋白质在人体组织和器官的分布
Uhlén M et al, 2015. Tissue-based map of the human proteome. Science, PubMed: 25613900 DOI: 10.1126/science.1260419
-
Cell Atlas
展示蛋白的的亚细胞定位
Thul PJ et al, 2017. A subcellular map of the human proteome. Science.PubMed: 28495876 DOI: 10.1126/science.aal3321
-
Pathology Atlas
展示蛋白质水平对癌症患者生存的影响
Uhlen M et al, 2017. A pathology atlas of the human cancer transcriptome.
Science.PubMed: 28818916 DOI: 10.1126/science.aan2507
使用介绍:
输入一个基因,会给出该基因的相关蛋白的描述,亚细胞定位等
再看看Tissue/Cell/Pathology都包括哪些内容:
应用范围:
这篇文章中是利用该数据库对hub genes在蛋白质水平上验证。做肿瘤数据挖掘的可以利用该数据库对感兴趣的基因进行蛋白质验证,不用做实验,故事还可以说的更饱满些。(数据库内容很多,之后详细介绍。)
3. CBioPortal (http://www.cbioportal.org/)
cBioPortal for Cancer Genomics 提供了探索、可视化和分析多种维度的癌症基因组数据的网站资源。可以探索基因变异对临床的影响,包括多种可视化方法。
文章结果
(1) WGCNA的分析结果:
-
样本聚类和软阈值的选择
Fig1 -
构建共表达网络
Fig 2 -
显著性模块的选择
Fig 3 -
提取显著性模块中的hub genes, 用cytoscape做网络图
Fig 4 -
模块基因的GO和KEGG富集分析
Table 1, 2
(2) Hub genes的验证结果
-
用GEPIA数据库对hub genes进行生存分析
Fig 5 -
差异基因和模块基因的关联分析,相互验证
Fig 6 -
转录本水平验证
Fig 7 -
翻译水平验证
用的Human Protein Atlas database数据库
Fig 8
用CBioPortal对基因组变异和hub genes关联分析
Fig 9
虽然这篇文章属于套路文章,利用的也都是公共数据资源和工具,但是也有值得借鉴的地方,利用WGCNA找到hub genes后,从转录本水平、翻译水平、临床结果和基因组变异多个角度验证;还有文中提到的3个公共数据库资源值得挖掘和利用,尤其是对做实验的同学,完全可以用别人的工具验证分析结果,绘制好看的图。
君子生非异也,善假于物也。