【数据库>>CGGA】CGGA数据库
2021-04-28 本文已影响0人
高大石头
CGGA:Chinese Glioma Genome Atlas,中国脑胶质瘤基因组图谱计划,发布2000例中国脑胶质瘤样本的功能基因组学数据。包含详细数据信息:
- 全外显子测序(286例)
- mRNA芯片(301例)及其测序(1018例)
- microRNA芯片(198例)
- DNA甲基化芯片(159例)
- 单细胞测序(来自13个病人,73个区域的6148个细胞)
- 274个病人的MRI结果
考虑到CGGA进行RNA测序时分为两批,因此需要去除批次效应:
rm(list = ls())
library(tidyverse)
library(limma)
library(sva)
library(preprocessCore)
setwd("E:/glioma")
# 整理693例病人测序结果
rt1 <- data.table::fread("CGGA.mRNAseq_693.RSEM-genes.20200506.txt",data.table = F) %>%
column_to_rownames("Gene_Name")
data1 <- log2(rt1+1)
data1a <- normalize.quantiles(as.matrix(data1))
rownames(data1a) <- rownames(data1)
colnames(data1a) <- colnames(data1a)
# 整理325例病人测序结果
rt2 <- data.table::fread("CGGA.mRNAseq_325.RSEM-genes.20200506.txt",data.table = F)%>%
column_to_rownames("Gene_Name")
data2 <- log2(rt2+1)
data2a <- normalize.quantiles(as.matrix(data2))
rownames(data2a) <- rownames(data2)
colnames(data2a) <- colnames(data2)
#取交集
samegene <- intersect(row.names(data1),row.names(data2))
data <- cbind(data1a[samegene,],data2a[samegene,])
#去除批次
batchtype <- c(rep(1,ncol(data1a)),rep(2,ncol(data2a)))
outTab <- ComBat(data,batchtype,par.prior = T)
outTab1 <- outTab %>%
as.data.frame() %>%
rownames_to_column("id")
write.table(outTab,file = "CGGA-normalize.txt",sep="\t",quote = F,col.names = F)