TCGA数据分析系列(一:数据下载清洗)
废话不多说,直接上干货。
一、确定肿瘤代码
TCGA涵盖30多种癌症,9000多个病人,数据库里的癌症名称是缩写的形式,TCGA癌症中英文对照可以参考:
TCGA癌症中英文对照
以结肠癌为例,首先查找到TCGA的结肠癌名称缩写是COAD。
二、数据下载(网页下载/R语言下载)
墙裂建议R语言下载,一键download和清洗,非常方便。
1、网页下载
然后进入GDC数据库网站。
按照以下步骤,依次选择repository,cases,在program里面选择TCGA,然后在project里面根据自己的癌症缩写选择相应的数据打勾,这边结肠癌勾选TCGA-COAD。
下面还有一些其他的筛选选项比如性别,年龄等。
image.png然后进入Files选项卡,以基因表达数据为例,Data category选择transcriptome profiling,Data Type选择Gene Expression Quantification,Experimental Strategy选择RNA-seq,Workflow Type选择SATR-Counts。
image.png
然后可以看到右边就是符合筛选标准的一个个数据了,如下图所示,点击Add all files to cart按钮,然后点击Cart进入购物车。
image.png
进入购物车后可以看到下载按钮,点击Download-Cart就等着数据下载完成了,点击Clinical data可以下载这批数据的临床数据。
image.png
用网页下载TCGA数据就完成了。
2、R语言下载数据
同样需要先进入GDC网页,主要是为了查看下并且确定数据的各类参数。
R语言数据下载以胆管癌(CHOL)为例,数据参数如下:
project:TCGA-CHOL
Data category:Transcriptome Profiling
Data Type:Gene Expression Quantification
Workflow Type:SATR-Counts
有了以上信息就可以去R里面下载了。
library(TCGAbiolinks) #加载R包,没装包的自行搜索去安装
project <- "TCGA-CHOL" #肿瘤缩写
data_category <- "Transcriptome Profiling"
data_type <- "Gene Expression Quantification"
workflow_type <- "STAR - Counts"
query <- GDCquery(project = project,
data.category = data_category,
data.type = data_type,
workflow.type = workflow_type
)
#下载数据
GDCdownload(query = query,files.per.chunk = 50)
#整理数据并存储为R对象
GDCprepare(query,save = T,save.filename = paste0(project,"_transcriptome.Rdata"))
#如果想下载其他类型的数据,可自行去GDC数据库查看各参数情况,然后更改参数即可
3、导入下载好的数据
在上一步种,我们把数据存储为了Rdata,现在直接导入这个Rdata即可。
load(file = paste0(project,"_transcriptome.Rdata"))
随后可以在环境中看到名为data的数据,这就是我们准备好的数据,该数据包含表达矩阵及临床数据,可直接提取使用,数据格式为SummarizedExperiment,可使用SummarizedExperiment这个R包操作。
library(SummarizedExperiment) #加载R包
a <- assays(data)#这里包含表达矩阵
r <- rowRanges(data)#这里包含基因数据
c <- colData(data)#这里包含临床数据
看下表达矩阵对象,包含表达Count,FPKM,TPM等。
image.png看下基因数据的信息,可以看到包含基因的区域链信息,名称,id,类型等。
image.png看下临床数据信息,如下:
image.png以上数据基本上就可以直接在R里面用了,无需再次清洗。
不得不说,新版TCGA实在是太方便了。
点个关注吧~
点击阅读公众号原文