TCGA数据挖掘---使用gdc-client下载TCGA数据

2021-02-03  本文已影响0人  Seurat_Satija

对于数据的利用的第一步就是获取数据,对于数据的下载与利用,使用gdc-client下载数据是生信技能树[生信爆款入门课程]提到的一个重点方法。在这里我下载TCGA数据的主要方法就是通过官网的下载工具gdc-client进行下载的,现做下总结:

数据获取到本地

1,打开在搜索栏中搜索“TCGA GDC”,然后找到官方网站点进去,TCGA官网如下图所示:

image.png

2,点击上面的「Repository」(仓库),首先检查cart是否为空不空 要清除 保证cart为0。接下来就是根据自己的需要在页面的左侧的「Files」和「Cases」进行数据筛选;

Snipaste_.png

3,数据筛选完之后网页的右边会有‘购物车’(cart)的图案,根据自己需要,将需要的文件加入到cart中,添加方式有两种选择:

image.png

4,文件选择完之后,点击页面右上角处的Cart:

image.png

5,接下来就是进行数据下载,因为我是使用官网的工具进行下载的所以需要下载两个文件:

一个是「Manifest」(一个txt文本,是数据下载入口,并不是数据本身);

一个是左边的「Metadata」(这个下载之后是个json文件,是为了之后进行数据清洗作准备的);

当然也可以直接从网站上直接下载数据,但这种方式的弊端就是不稳定,数据中断时无法续传;

image.png

把文件下载到本地后,是这个样子:

image.png

工具下载

利用工具进行下载,打开命令行:输入以下命令:

gdc-client download -m gdc_manifest_20210203_011657.txt

下载过程如下图所示,后续就是等待数据下载完成,
下面分别展示了c盘和d盘的不同进入方法。

c盘

image.png

d盘

image.png

数据下载完成之后,是TCGA中的选取每一个数据txt文本分别创造了一个相应的文件夹,每个文件夹中都有一个对应的gz格式的安装包

至此,TCGA的数据下载基本介绍完了。

上一篇下一篇

猜你喜欢

热点阅读