rna_seqICGCTCGA GEO

整理ICGC 表达数据

2020-05-18  本文已影响0人  caokai001

参考:

ICGC数据库数据提取表达矩阵/如何提取癌症数据--生信自学网
使用spread 出现的坑--刘小泽简书

目的:

当我们使用TCGA 表达数据,数据以gene-sample matrix形式整理好了;ICGC也是一个很大的癌症数据库,存放了几十种癌症的数据。我们需要将系数矩阵修改成gene-sample matrix形式。


1.数据下载

https://dcc.icgc.org/releases/current/Projects/PRAD-CA

下载三个数据,用于整理表达矩阵。

2020年5月18日10:00:21

2.数据整理

cat exp_seq.PRAD-CA.tsv |cut -f 1,3,8,9 >exp_seq_PRAD-CA_simplify.txt
###########################################
## 目的:合并多个未见,整理成基因和样本 matrix
## 时间:2020年5月17日16:42:19
## 作者:曹锴
## 目录:C:/Users/16926/Desktop/2020-1/TF-mutation/Validate_Gene/ICGC-PRAD
###########################################

setwd("C:/Users/16926/Desktop/2020-1/TF-mutation/Validate_Gene/ICGC-PRAD")
library(tidyverse)

## ----------------------------------------------------
## 1.extract sample information 读入
specimen_file <- read_delim(file="specimen.PRAD-CA.tsv",delim="\t",col_names = TRUE)
sepcimen_simplify_file <-   specimen_file %>% mutate(specimen_type=ifelse(specimen_type=="Primary tumour - solid tissue","C","N")) %>%
  select(1,5,7) 

## ----------------------------------------------------
## 2.expression matrix 读入
exp_file <- read_delim(file = "exp_seq_PRAD-CA_simplify.txt",delim = "\t",col_names = TRUE)

## ----------------------------------------------------
## 3.将两文件合并,形成合并的表达矩阵
merge_df <- merge(exp_file,sepcimen_simplify_file,by="icgc_specimen_id",all.x=TRUE)

## gather 格式的表达数据
tmp <- merge_df[,c(1,5,6,3,4)] %>% tbl_df() %>% unite(sample_id,icgc_specimen_id,icgc_donor_id.y,specimen_type,sep="-") 


## 查看捐赠者数目
length(unique(exp_file$icgc_donor_id))    # [1] 144
## 查看sample 数目
length(unique(exp_file$icgc_specimen_id)) # [1] 144


## spread 格式表达数据
## 解决spread报错:https://www.jianshu.com/p/de03346a584a
exp_matrix <- tmp %>% group_by(sample_id) %>% mutate(id=1:n()) %>% 
  spread(sample_id,normalized_read_count) %>% select(-"id")

思考:

## 查看捐赠者数目
length(unique(exp_file$icgc_donor_id))    # [1] 144
## 查看sample 数目
length(unique(exp_file$icgc_specimen_id)) # [1] 144

欢迎评论留言~

上一篇 下一篇

猜你喜欢

热点阅读