通过GDC Legacy Archive下载TCGA原始数据
欢迎关注”生信修炼手册”!
在2016年之前,TCGA项目的相关结果文件存放在CGhub和TCGA Data Coordinating Center简称DCC提供的TCGA Data Portal中,当时的结果是以hg19或者hg18为参考得到的。
在DCC中,将数据划分为了3个等级。level 1代笔原始的,未经处理的数据的,比如芯片下机数据;level2 代表处理的中间结果,比如测序深度对应的wig文件;level 3 代表处理完成后的最终结果,比如基因的定量结果。
2016年之后,CGhub和DCC相继关闭,所有的数据统一迁移到现在用的GDC数据库,而且通过GDC的pipeline将原有的结果转换为hg38参考基因组版本。目前在GDC中检索到的结果都是经过了GDC pipeline处理过后的,从这里也可以看出,迁移到hg38是一个大的趋势。
当然目前使用hg19的还是挺多的,如果你需要基于hg19版本的TCGA数据,在GDC中也可以找到。其实GDC中的数据可以分为以下两个部分
-
GDC harmonized data
-
GDC legacy archive
在R包TCGAbiolinks
中,介绍了二者的区别,如下图所示
第一部分就是默认使用的基于hg38版本的数据,第二部分则是对原始的TCGA结果的一个存储,通过GDC首页的GDC APPs
, 可以找到CDC Legacy Archive
的入口,链接如下
https://portal.gdc.cancer.gov/legacy-archive
在左侧的面板可以根据相关属性对Cases和Files进行筛选,Cases相关的属性如下
Files相关的属性如下
数据的下载方式和前面文章中介绍的相同,这里不赘述,从文件名称可以看到对应的level, 不同level的文件示意如下
1. level1
通过Data Type
为Raw intensitites
进行筛选,得到芯片的原始数据, 示意如下
2. level2
通过Data Type
为Coverage WIG
进行筛选,得到比对的测序深度数据, 示意如下
3. level3
通过Data Type
为miRNA gene quantification
进行筛选,得到miRNA表达定量数据, 示意如下
通过GDC Legacy Archive, 可以找到基于hg19的数据结果文件,但是由于相关的网站已经关闭,无法确认该数据分析的pipieline等细节信息,所以需要谨慎使用。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!