TCGA数据挖掘:GDCRNATools
2019-07-26 本文已影响0人
泠生
最近在做meta分析,主要是面向TCGA数据库,前后试过几个R packages: TCGAbiolinks 和 TCGA2STAT,GDCRNATools。感觉GDCRNATools是对win10用户最友好的。不过GDCRNATools画Survival carve 用的不是ggplot2,需要自己把数据提取出来,用survminer包画。
这里需要注意的是,第一,下载的数据包含Normal的样本,需要把PrimaryTumor的提取出来,;
第二,生存时间是分成了两列,"days_to_death","days_to_last_follow_up" 分别对用 "vital_status" 为“death","alive"的情况,需要合并到一起;
第三,“death","alive"需要用1,0替换,可以用gsub()函数实现;
第四,以gene expression level来划分High,Low的时候,可以用quantile() 函数来进行百分位点划分,用如下代码添加Type标签。
TCGAdata <- within(TCGAdata,{
Type <- NA
Type[TCGAdata$expr > quantile(TCGAdata$expr,0.5)] <- "High"
Type[TCGAdata$expr < quantile(TCGAdata$expr,0.5)] <- "Low"})