TCGAbiolinks下载TCGA数据（更新版本）

2019-08-19 本文已影响0人医科研

TCGAbiolinks数据下载

下载TCGA数据的方法有很多，但比较好用的包我认为就是TCGAbiolinks,TCGAbiolinks是一个可用于检索，下载，并准备TCGA数据用于下游分析的R包，该包发表在
著名的 核酸研究 杂志上。
TCGAbiolinks的优点在于具备一体化的下载整合，无需再使用复杂的方法对下载的单个数据重新进行整合，新手及临床医生尤其适合，我们的目的就是分析数据，没有必要去做些非必须的事。
UCSC xena 本来是一个很好的工具，但有一个问题是它存储的数据是log2(x+1) 转换的 RSEM nomalized data，关于这个数据有文章去使用，但我不确定能否直接用limma去做后续分析。笔者曾试图搞清楚这个数据究竟如何使用，发现众说纷纭，似乎UCSCxena本身也没有给出一个很清晰的答案，因此就表达谱数据而言，UCSCxena并不是最好的选择，当然也有说把log2转换的数据再转换回来的，总觉得并不合适。

load package

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("TCGAbiolinks")
library(TCGAbiolinks)
library(DT)
library(dplyr)
library(SummarizedExperiment)

数据来源-根据TCGAbiolinks的官方说明

不同的数据来源 Legacy 与 harmonized
GDC Legacy Archive:以前在CGHUB和TCGA数据门户中存储的数据的原始数据，由TCGA数据协调中心（DCC）托管，在该门户中用GRCH37（HG19）和GRCH36（HG18）作为参考基因组
GDC harmonized database:可用数据与grch38（hg38）使用gdc生物信息学流程进行协调，该流程提供了生物标本和临床数据标准化的方法，简单讲就是对数据进行了一定标准化处理。harmonized数据库包括转录谱数据，甲基化数据，miRNA数据，但缺少芯片数据

数据检索

query.met <- GDCquery(project = "TCGA-COAD",
                      data.category = "DNA Methylation",
                      legacy = FALSE,
                      platform = c("Illumina Human Methylation 450"))
query.exp <- GDCquery(project = "TCGA-COAD",
                      data.category = "Transcriptome Profiling",
                      data.type = "Gene Expression Quantification", 
                      workflow.type = "HTSeq - FPKM-UQ")
query.exp[1:5,1:5]
query.met[1:5,1:5]
datatable(getResults(query.exp, cols = c("data_type","cases")),
          filter = 'top',
          options = list(scrollX = TRUE, keys = TRUE, pageLength = 5), 
          rownames = FALSE)

mRNA Expression

query <- GDCquery(project = "TCGA-BRCA",# Cancer type
                  data.category = "Transcriptome Profiling",
                  data.type = "Gene Expression Quantification", 
                  workflow.type = "HTSeq - Counts"# raw count 
                  )
GDCdownload(query,
            directory = "./project",#
            method = "api",
            files.per.chunk = 100)# 
data <- GDCprepare(query)
count_data=assay(data)
count_data[1:5,1:5]
dim(count_data)##56537 1222

## clinical information
colData(data)[1:5,1:5]

## save data
#save(count_data,file = "BRCA_count.Rdata")

clinical data

clinical <- GDCquery_clinic(project = "TCGA-BRCA", type = "clinical")
clinical[1:5,1:5]
dim(clinical)## 1097 68

## save
#save(clinical,file="BRCA_clinical.Rdata")
#write.csv(clinical,file="TCGAbiolinks-BRCA-clinical.csv")

## clinical-2
clinical_2<-colData(data)
#write.csv(clinical,file="TCGAbiolinks-BRCA-clinical.csv")

## 获取所有TCGA的临床信息
library(data.table)
library(dplyr)
library(regexPipes)
clinical <- TCGAbiolinks:::getGDCprojects()$project_id %>% 
    regexPipes::grep("TCGA",value=T) %>% ## TCGA
    sort %>% 
    plyr::alply(1,GDCquery_clinic, .progress = "text") %>% 
    rbindlist
dim(clinical)
clinical[1:5,1:5]
#readr::write_csv(clinical,path = paste0("BRCA_clin_indexed.csv"))

miRNA data

query <- GDCquery(project = "TCGA-BRCA", 
                    data.category = "Transcriptome Profiling", 
                    data.type = "miRNA Expression Quantification", 
                    workflow.type = "BCGSC miRNA Profiling")
## 检束结果
results<-getResults(query)
dim(results)
results[1:5,1:5]
colnames(results)

## download data
GDCdownload(query, 
            method = "api", 
            files.per.chunk = 20)# 减少下载失败风险
mir_exp<- GDCprepare(query = query,
                     summarizedExperiment=F)# set F

## 数据结构
dim(mir_exp)
mir_exp[1:5,1:5]

## save data
#save(mir_exp,file="BRCA_miRNA_raw.Rdata")

总结

除了下载功能以外，TCGAbiolinks还包括了一些数据分析挖掘功能：

差异分析
富集分析
整合其它组学数据的关联分析
一定的可视化功能：PCA,heatmap等等
笔者认为，这些功能的好处在于能够比较方便的用简单几行代码做一些固定的分析，恰恰这也是它的缺点，这样的话包的灵活性就大打折扣了，不能够很好的整合用户的其它分析流程。考虑到这一点，我可能不会过多的使用它的其它分析功能

参考资料

广而告之

说一个事，鉴于简书平台在信息传播方面有不足之处，应粉丝要求，白介素2的个人微信平台已经开启，继续聊临床与科研的故事，R语言，数据挖掘，文献阅读等内容。当然也不要期望过高，微信平台目前的定位是作为自己的读书笔记，如果对大家有帮助最好。如果感兴趣，可以扫码关注下。

qrcode_for_gh_9eaa04438675_258.jpg