TCGA数据挖掘一：下载数据：RTCGA包

2019-06-22 本文已影响21人 mayoneday

主要想介绍的是下载下来数据的数据处理这一块，不是特别建议RTCGA的下载方法，列出了是因为怕没有源文件后续数据处理看不懂

一下载数据

RTCGA下载是把所有数据一起下载下来，存在不是最新的问题，此为2015年的

# Load the bioconductor installer. 
source("https://bioconductor.org/biocLite.R")
# Install the main RTCGA package
biocLite("RTCGA")
# Install the clinical and mRNA gene expression data packages
biocLite("RTCGA.clinical") ## 14Mb
biocLite('RTCGA.rnaseq') ##  (612.6 MB)
biocLite("RTCGA.mRNA") ##  (85.0 MB)
biocLite('RTCGA.mutations')  ## (103.8 MB)

library(RTCGA)
## Welcome to the RTCGA (version: 1.8.0).
all_TCGA_cancers=infoTCGA()#查看所有肿瘤类型每种数据分别有多少
DT::datatable(all_TCGA_cancers)
library(RTCGA.clinical) 
library(RTCGA.mRNA)
## ?mRNA
## ?clinical

二提取数据中的表达矩阵

#提取表达矩阵，已经写好的函数，直接可以得到表达矩阵
expr <- expressionsTCGA(BRCA.mRNA, OV.mRNA, LUSC.mRNA,
                        extract.cols = c("GATA3", "PTEN", "XBP1","ESR1", "MUC1"))
## Warning in flatten_bindable(dots_values(...)): '.Random.seed' is not an

三处理下载下来的数据

expr#通过输入名字查看表达矩阵的情况
nb_samples <- table(expr$dataset)#看表达矩阵中的每个类型的数据都有多少
nb_samples
expr$dataset <- gsub(pattern = ".mRNA", replacement = "",  expr$dataset)
#把expr的dataset这一列的数字中的,mRNA变成空的，更换表达形式从BRCA.mRNA变成BRCA
expr$dataset 
expr$bcr_patient_barcode <- paste0(expr$dataset, c(1:590, 1:561, 1:154))
#把病人样本名称的这列简化变成对应的肿瘤名称加序号，这个数字是根据原来的肿瘤数量算出来的
expr

四利用下载下来的数据画图，看组间差异

library(ggpubr)
## Loading required package: ggplot2
## Loading required package: magrittr
# GATA3
ggboxplot(expr, x = "dataset", y = "GATA3",
          title = "GATA3", ylab = "Expression",
          color = "dataset", palette = "jco")

Rplotsd.jpeg

加上P值

my_comparisons <- list(c("BRCA", "OV"), c("OV", "LUSC"))
ggboxplot(expr, x = "dataset", y = "GATA3",
          title = "GATA3", ylab = "Expression",
          color = "dataset", palette = "jco")+
  stat_compare_means(comparisons = my_comparisons)

Rplotwe.jpeg

label.select.criteria <- list(criteria = "`y` > 3.9 & `x` %in% c('BRCA', 'OV')")
ggboxplot(expr, x = "dataset",
          y = c("GATA3", "PTEN", "XBP1"),
          combine = TRUE,
          color = "dataset", palette = "jco",
          ylab = "Expression", 
          label = "bcr_patient_barcode",              # column containing point labels
          label.select = label.select.criteria,       # Select some labels to display
          font.label = list(size = 9, face = "italic"), # label font
          repel = TRUE                                # Avoid label text overplotting
          )

Rplot12.jpeg

小总结：处理数据最主要的是通过查看数据（输它的名字），了解数据的构成，然后根据你的需要个性化的处理数据，想实现什么都可以自行百度

TCGA数据挖掘一：下载数据：RTCGA包

一下载数据

二提取数据中的表达矩阵

三处理下载下来的数据

四利用下载下来的数据画图，看组间差异

加上P值

最后

感谢jimmy的生信技能树团队！

感谢导师岑洪老师！

感谢健明、孙小洁，慧美等生信技能树团队的老师一路以来的指导和鼓励！

文中代码来自生信技能树jimmy老师 Rplotwe.jpeg

猜你喜欢

热点阅读