用R语言进行差异化分析:可自定义选取指定数据分别进行分析
2019-03-23 本文已影响0人
mayoneday
一.读取excel文件
library(readxl)#加载包,无法加载就安装
a<-read_excel("123.xlsx")#注意要把数据文件放在你打开的R-project目录下,不然读取不到
同一种基因在四种癌症中的表达量
二.选取指定数据进行分析
该表中含有四种癌症,假设我们的目的是对肝癌和乳腺癌的差异性进行两两分析,首先我们需要选取出表中肝癌和乳腺癌的数据
这就涉及到一个问题:怎么在文档中取出需要的子集
[ , ]的意思为对行列进行取子集操作,前为行后为列,空白处输入的内容就是对行列进行的限定条件,从而选出需要的行列
c=a[1,]#数字意思为取第1行
c=a[c(1,2),]#想取几个行时,数字意思为取第1,2行
c=a["x",]取某个名字叫X的行
c=a[c("x","y"),]取名字叫"x""y"的两行
c=a[a$癌症类型=="肝癌",]#找出某一列中含有某个元素的某行
c=a[a$癌症类型=="肝癌"|a$癌症类型=="肺癌",]#想设置多个条件,用或或而且(R语言中表示或者使用|;表示并且使用&
;表示否使用!)#此句意义为取出癌症类型这一列的数据中是肝癌和肺癌的这些行,运行此条之后出现如下结果
取出了为肝癌和肺癌的数据,现在C数据文件中就只含有肝癌和肺癌了
三.对选取出来的数据进行差异化分析
library(ggstatsplot)
ggbetweenstats(c, x=癌症类型, y=gene)
#加载R包后利用R包画图,该图以癌症类型列数据为X轴,gene列数据为Y轴
#此处有一个小技巧R包中的函数不用自己手打输入,根据说明书中的案列复制
Rplot01.jpeg