TCGA数据库简介
欢迎关注”生信修炼手册”!
TCGA全称如下
The Cancer Genome Atlas
是由National Cancer Institute ( NCI, 美国国家癌症研究所) 和 National Human Genome Research Institute (NHGRI, 国家人类基因组研究所) 合作建立的癌症研究项目,通过收集整理癌症相关的各种组学数据,提供了一个大型的,免费的癌症研究参考数据库。
目前共收录了33种癌症类型,超过了2个PB的数据,该数据是免费公开的,极大的帮助癌症研究者提高对癌症的预防,诊断和治疗。该数据库的网址如下
https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga
数据类型包括以下几种
-
RNA sequencing
-
MicroRNA sequencing
-
DNA sequencing
-
SNP-based platforms
-
Array-based DNA methylation sequencing
-
Reverse-phase array(RPPA)
涵盖了基因组,转录组,表观遗传,蛋白组等各个组学数据,提供了一个全方位,多维度的数据。 官方提供了对应的下载工具Genomic Data Commons Datga Portal
, 简称GDC
, 网址如下
https://portal.gdc.cancer.gov/
同时还有很多的第三方工具,比如
-
cBioPortal
-
ForeBrowse
-
UCSC Xena
官方的工具主要功能是查看和下载数据,只有非常简单的分析功能,而第三方工具则侧重于基于TCGA的数据进行分析。目前针对TCGA的数据,常用的分析包括以下几种
-
生存分析
-
肿瘤患者和正常人的差异分析
-
组学数据和临床数据的相关性
基于TCGA等公共数据库的挖掘是目前研究的一个热点,在文章中也经常会使用TCGA的数据来和自己实际的数据相互映证。了解和掌握TCGA数据的用法势在必行,在后续文章中会详细介绍。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!