生信精读文献GEO&TCGA数据库挖掘

零代码下载TCGA数据库第一期

2019-04-09  本文已影响9人  765f2ea50d22

本文首发于 ”百味科研芝士“ 微信公众号,转载请注明:百味科研芝士,Focus科研人的百味需求

点击蓝字关注我们

TCGA数据库目前是科研中最常用的数据库之一,其中储存着多种疾病的各组学的数据,借助该数据库,帮助了很多研究生们发表了自己的文章,达到了毕业条件。但是,如果你是刚入门的新手,不用担心,跟着我们的系列推文,完成TCGA数据库的认识与下载,开启TCGA数据库的大门。今天我们就来学习一下TCGA数据库中癌症的RNAseq数据下载。

1.TCGA数据库简介

TCGA数据库全称为The Cancer Genome Atlas,如名所示,它主要储存关于各类肿瘤的一个基本信息,包括RNAseq,miRNAseq,DNA甲基化,CNV,SNP等信息,它是目前为止我们可以获得的公开数据库里面数据相对全面的一个,在各个领域得到了广泛的应用,为肿瘤基础医学和转化医学研究者提供了海量的基因组数据和与其关联的临床数据,这为挖掘有意义的基因组变化和发现影响肿瘤起始、发展、分化、转移等生物学机制提供了海量数据基础。

2.TCGA网址

https://portal.gdc.cancer.gov/

首页模样如下:

3. 点击 Repository,进入数据存储地,就会出现下面这个界面

4. 点击 Case,选择疾病类型,就会出现下面这个界面,用于挑选各类癌症,比如我们选择喉癌(Larynx),在其前面打钩即可。

5.接着点击 File,选择文件类型,就会出现下面这个界面,用于选择需要下载文件的数据类型,因为我们需要下载的是RNAseq的数据,所以需要在Transcriptome Profiling,在其前面打钩即可。

6.在Data Type选择Gene Expression Quantification,在Experimental Strategy上由于只有一个选项,所以我们不用选择也可以,主要看到有三种类型,分别是counts,FPKM和FPKM-UQ,分别表示counts数和两种归一化后的值,一般推荐下载counts数据。

7. 点击counts之后,我们可以看到每一步操作都会记录在里面,如下,也可以看到数据大小是31兆。

8. 点击Add All Files to Cart,然后就会看到箭头所指的地方,变为相应的样本数,接着点击cart,如下:

9. 点击download,下载cart即可

这样你就完成了第一步基于网页版tcga数据的下载。

10.下载的数据模样

下载的结果是一个压缩包,我们解压之后就会发现,每个文件存储的为一个样本。

OK,今天的数据下载先讲到这,下期再见。

关注公众号,后台回复“生信资源”,获取200G生信资源包

上一篇下一篇

猜你喜欢

热点阅读