TCGA数据库下载,挖掘,Xena Browser可视化
1.数据库简介:
癌症和肿瘤基因图谱 (The Cancer Genome Atlas, TCGA)
于2006年启动,试图通过应用基因组分析技术,特别是采用大规模的基因组测序,将人类全部癌症的基因组变异图谱绘制出来,并进行系统分析,旨在找到所有致癌和抑癌基因的微小变异,了解癌细胞发生、发展的机制,在此基础上取得新的诊断和治疗方法,最后可以勾画出整个新型“预防癌症的策略”。
作为目前最大的癌症基因信息数据库,TCGA的全面不仅仅体现在众多癌型上,还体现在多组学数据,包括基因表达数据、miRNA表达数据、拷贝数变异、DNA甲基化、SNP Indels 。
数据库网址:https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga
推荐浏览器:Chrome, Edge, or Firefox
截止到2020年6月29日,数据库数据统计如下:

2.数据类型:

数据水平:
Level1和Level2 数据为controlled-access(限制下载),Level3有部分是controlled-access,其余是开放下载,数据level显示“Unauthorized”,则表示不能直接下载,需要先向TCGA申请使用权限。

3.数据下载:
TCGA Data Portal 及 GDC Data Transfer tool #官网推荐
Xena Browser #小编推荐
R包
RTCGA Toolbox
TCGAbiolinks
3.1 TCGA Data Portal :
优点:数据最全,更新最快
缺点:下载数据量有限制,部分文件按照样本存储,如果下载某一个癌症的RNA数据,要下载好几百个文件,合并工作量大。

TCGA数据库在数据下载有规定:Cart文件夹大于50M时,只能通过Data Transfer Tool工具进行下载。
该工具使用说明:
https://blog.csdn.net/qq_35203425/article/details/80882988
需要用命令行方式下载。
4.数据可视化:
UCSC Xena功能基因组浏览器是集分析、可视化、Galaxy与一体的新一代在线数据分析和可视化平台。
现有138个队列的1588个公共数据集包括 TCGA, ICGC, TARGET, GTEx,CCLE等都进行了标准化处理。因此不同的数据集之间可以组合比较。对任何展示的变量(不同表型病人的比较,不同基因表达的比较,突变有无的比较,甲基化水平的变化)都可以进行生存分析,绘制KM-plot,计算其对病人生存率的影响。热图可以根据任一变量排序,然后查看其它变量的变化。如根据药物处理状态排序,查看基因的表达或修饰的变化。
网址:https://xenabrowser.net/datapages/
优点:Xena操作简单,下载方便,可以下载到较新的TCGA数据;
缺点:表达数据只有log2(RSEM+1),无read_count值。无法下载到read
count值;
4.1 可视化操作-生存分析:
1.UCSC Xena-How do I make a KM plot? #生存分析
我比较懒,不想码字,大家可以按照下图1-7的步骤进行操作,如果图片显示异常可以私信我。

步骤2 画图

4.2 可视化操作-分组基因表达比较:
UCSC Xena-How do I compare tumor vs normal expression?
操作步骤如图:


4.3 可视化操作-个性化分组:
如果需要个性化对样本进行分组比较,可以按照下方图片的实例进行操作,示例想要分析的内容是,ATRX基因终止和移码突变分组与不携带该突变的样本之间生存期有无差别。

利用分组信息,进一步查看不同分组条件下是否有生存差异。

未完待续~