TCGA data mining

利用R语言分析基因表达量和预后的关系

2019-03-03  本文已影响0人  mayoneday

分析基因表达量和预后的关系大体思路为:找出某一癌症中感兴趣的基因表达量和病人生存时间的数据,再进行生存分析,画图

分解起来看

第一步:得到基因表达量和病人生存时间相应的数据

方法一:利用网页工具,如:OncoLnc

OncoLnc: www.oncolnc.org
这个网站整合了TCGA的各种RNA数据和患者临床数据,提供生存分析

打开OncoLnc
输入感兴趣的基因 选择某一种癌症进行研究
把基因的表达量进行分组

生存分析最重要的就是分组

获得数据

方法二:TCGA数据库获取

待补充

第二步:把获得的数据用R语言读取后作图,且可以个性化调整

a=read.table('BRCA_6662_50_50.csv',
             sep = ',',
             header = TRUE,
             fill=T)#读取数据
library(ggstatsplot)
ggbetweenstats(dat, x=Group, y=Expression)
#加载R包后利用R包画图,该图以Group列数据为X轴,Expression列数据为Y轴
#此处有一个小技巧R包中的函数不用自己手打输入,根据说明书中的案列复制
Rplot.jpeg

注意表达量一般要log

画生存分析图

library(survival)
library(survminer)
table(dat$Status)
dat$Status=ifelse(dat$Status=="Dead",1,0)#把生存状态转换为数字0,1
sfit<-survfit(Surv(Days,Status)~Group,data=dat)
sfit
summary(sfit)
ggsurvplot(sfit,conf.int = F,pval = T)
得出生存分析图

小技巧:还可利用?ggsurvplot看说明书后按照具体细节调整图形

上一篇下一篇

猜你喜欢

热点阅读