利用R语言分析基因表达量和预后的关系
2019-03-03 本文已影响0人
mayoneday
分析基因表达量和预后的关系大体思路为:找出某一癌症中感兴趣的基因表达量和病人生存时间的数据,再进行生存分析,画图
分解起来看
第一步:得到基因表达量和病人生存时间相应的数据
方法一:利用网页工具,如:OncoLnc
OncoLnc: www.oncolnc.org
这个网站整合了TCGA的各种RNA数据和患者临床数据,提供生存分析
输入感兴趣的基因 选择某一种癌症进行研究
把基因的表达量进行分组
生存分析最重要的就是分组
获得数据方法二:TCGA数据库获取
待补充
第二步:把获得的数据用R语言读取后作图,且可以个性化调整
a=read.table('BRCA_6662_50_50.csv',
sep = ',',
header = TRUE,
fill=T)#读取数据
library(ggstatsplot)
ggbetweenstats(dat, x=Group, y=Expression)
#加载R包后利用R包画图,该图以Group列数据为X轴,Expression列数据为Y轴
#此处有一个小技巧R包中的函数不用自己手打输入,根据说明书中的案列复制
Rplot.jpeg
注意表达量一般要log
画生存分析图
library(survival)
library(survminer)
table(dat$Status)
dat$Status=ifelse(dat$Status=="Dead",1,0)#把生存状态转换为数字0,1
sfit<-survfit(Surv(Days,Status)~Group,data=dat)
sfit
summary(sfit)
ggsurvplot(sfit,conf.int = F,pval = T)
得出生存分析图
小技巧:还可利用?ggsurvplot看说明书后按照具体细节调整图形