TCGA数据处理

使用官方gdc-client软件下载TCGA数据

2019-11-16  本文已影响0人  组学大讲堂

要是有gdc-client软件下载数据,需要以下三步才能完成:

1、GDC筛选检索下载需要数据的Manifest文件

TCGA改版后,下载方式变得大为不同,数据都整合在GDC(Genomic Data Commons)的DATA PORTAL中,网址:https://portal.gdc.cancer.gov/

建议大家先从Exploration页面筛选数据再到Repository页面筛选,最后下载Manifest文件,这里以乳腺癌表达数据Manifest文件下载为例给大家说明:

1)Exploration:在页面右边勾选自己想要的数据,然后点击 view Files in Repository,跳转到Repository页面进一步筛选.

2)Repository:在页面选项卡选择自己需要的数据,然后点击Manifest下载:

2、gdc-client软件安装和配置

1)下载软件地址:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool,根据自己的操作系统下载对应的版本,这里下载windows版本。

2)将下载的软件解压,并放在一个自己好找的目录,例如我放在D:\TCGA目录,并且把上面下载的Manifest文件也放在相同的文件夹:

3、使用gdc-client下载TCGA数据

1)方法,打开windows的dos窗口,并切换到刚才的目录:D:\TCGA

方法2,将gdc-client.exe 文件所在的目录添加到windows环境变量中,方便命令行调用:

这个软件加入环境变量,如果以后想在任何一个路径简单使用gdc-client这个命令,那就需要把这个软件的路径加到环境变量。就是在Path加入刚刚软件所在的路径即可”。具体操作如下:打开电脑控制面板->系统和安全->系统->高级系统设置->环境变量->Path->“加入你的gdc-client所在路径” ,然后应用保存。

系统和安全

系统

高级系统设置

环境变量  编辑Path

Path添加:

由于gdc-client软件只能帮我们下载数据,数据的整理合并筛选等需要我们手动完成(借助perl或者python整理)。如果有R语言基础,这里推荐大家使用TCGAbiolinks下载整理数据:https://www.omicsclass.com/article/1060

更多生物信息课程:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程基因家族文献思路解读

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘转录组文献解读

5.微生物16S/ITS/18S分析原理及结果解读OTU网络图绘制cytoscape与网络图绘制课程

6. 生物信息入门到精通必修基础课,学习链接:linux系统使用perl入门到精通perl语言高级R语言画图

7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接:TCGA-差异基因分析GEO芯片数据挖掘GSEA富集分析课程TCGA临床数据生存分析TCGA-转录因子分析TCGA-ceRNA调控网络分析

8.其他课程链接:二代测序转录组数据自主分析NCBI数据上传二代测序数据解读

上一篇下一篇

猜你喜欢

热点阅读