生信图可视化大全R生物信息学

r 语言快速出图——单因素方差带字母显著性标记

2019-05-19  本文已影响28人  小三的后一位小四

相信带字母的显著性标记图大家都不会陌生,在许多文献中多可以看到类似的图。首先来看看它长啥样


用不同的字母来表示显著性,字母相同不显著

不管是在月末组会汇报,还是自己写文章过程中都会用到。今天就一起来学一下怎么做。
首先学一个概念数据可视化,

可视化:可视化(Visualization)是利用计算机图形学和技术,将数据转换成图形或图像在屏幕上显示出来,再进行交互处理的理论、方法和技术。

大概意思就是说一图胜千言。看看那些好杂志的文章,不得不承认人家的图确实简洁好看,言简意赅。哎!作图也是有功力的。多向大佬膜拜膜拜,哈哈哈

回到正题,这类图该如何做呢!大概有两种做法:一种是利用统计软件(eg:SPSS、DPS等)先分析得到结果,再利用其他生物绘图工具(eg:EXCEL工具)做出柱状图,再把字母和误差线加上添加;第二种就是利用R语言这类专业用代码一键出图。首先我会先用R语言进行单因素方差分析。然后再介绍一款超级简单的统计软件DPS做一遍。

R语言

准备工作

代码部分

#加载我的工作目录
setwd("G:/我的坚果云/研究生/实验数据")
#读取数据,换成自己的文件名即可
data <- read.table("123.txt",sep="\t",header=TRUE)
#这一句的意思是:将你的分组信息转化为factor,不然软件在运算过程种识别不了
data$处理 <- as.factor(data$处理)
#查看导入表格中发病率这一列的数据类型
class(data$处理)
#这里出现 factor 就可以下一步了
#方差齐性检验
#法1bartlett.test
nom <- bartlett.test(data$发病率~data$处理,data = data)
nom
#法2
install.packages("car")
library(car)
nom1<-leveneTest(data1$发病率~data1$gruop,data = data1)
nom$p.value
#最后两个的p.value大于0.05 说明方差是齐性,可以进行下一步分析
# 单因素方差分析,整体来看差异显著
oneway<-aov(data$发病率~data$处理,data = data)
anova(oneway)
anova(oneway)结果
#多重比较
# LSD法(Fisher’s Least Significant Difference)
# LSD法检验处微小的差异,比较方便的是直接得出显著行标记,不需人工标记
install.packages("agricolae")
library("agricolae")
out <- LSD.test(oneway,"data$处理",p.adj="none")
out
out结果

嗯,到这分析已经结束了。下面开始绘制图形

#整理绘图需要的表格
mar<-out$groups
rownamemar<-row.names(mar)
newmar<-data.frame(rownamemar,mar$`data$发病率`,mar$groups)
sort<-newmar[order(newmar$rownamemar),]
# 将groups的数据框按列名排序,目的是保持与均值标准差的数据一一对应
rowname<-row.names(out$means)
mean<-out$means[,1]
sd<-out$means[,2]
marker<-sort$mar.groups
plotdata<-data.frame(rowname,mean,sd,marker)
plotdata
plotdata结果
install.packages("ggplot2")
library("ggplot2")
p1<-ggplot(plotdata,aes(x=factor(rowname),y=mean))+geom_bar(position=position_dodge(0.6),width = 0.5,stat = "identity")
p1
p2<-p1+geom_errorbar(aes(ymin=mean-sd,ymax=mean+sd),position=position_dodge(0.6),width=0.2)
p3<-p2+geom_text(aes(x=factor(rowname),y=mean+sd+2.0,label=marker),size=3,position= position_dodge(0.6))
p3
p4<-p3+xlab("")+ylab("发病率(%)")
p4
p5<-p4+coord_cartesian(ylim= c(0,100),expand = FALSE)
p5
#发现没有ggplot2的作图方式挺好玩的,就像玩俄罗斯方块一样,一层一层往上加,
#更改y轴显示范围,这里的expand默认为TRUE
mytheme<-theme_bw()+theme(axis.title =element_text(size = 12),
                          axis.text =element_text(size=12),
                          panel.grid.major =element_line(color ="white"),
                          panel.grid.minor =element_line(colour = "white"),
                          axis.text.x =element_text(size = 12,angle=0,vjust=0,hjust=0,color = "black"),
                          axis.text.y =element_text(size = 12,color ="black"),)
p5+mytheme
coord_cartesian(ylim = c(0,60),expand =FALSE)的expand改为TRUE。
ggsave("发病率.pdf", width = 10, height= 10, units = "cm")
end
最后结果图

有了这套代码,小伙伴就可以根据自己的需要仅更改几个地方就可以完成分析了。

如何根据自己的需要改呢

还是用上面的数据。比如我现先还要做病情指数的分析

setwd("G:/我的坚果云/研究生/实验数据")
data <- read.table("123.txt",sep="\t",header=TRUE)
data$处理 <- as.factor(data$处理)
class(data$处理)
#方差齐性检验
#法1bartlett.test
nom <- bartlett.test(data$病情指数~data$处理,data = data)
nom
#法2
install.packages("car")
library(car)
nom1<-leveneTest(data$病情指数~data1$gruop,data = data1)
nom$p.value
#nom$p.value大于0.05 说明方差是齐性
# 单因素方差分析,整体来看差异显著
oneway<-aov(data$病情指数~data$处理,data = data)
anova(oneway)
#多重比较
# LSD法(Fisher’s Least Significant Difference)
# LSD法检验处微小的差异,比较方便的是直接得出显著行标记,不需人工标记
install.packages("agricolae")
library("agricolae")
out <- LSD.test(oneway,"data$处理",p.adj="none")
out
mar<-out$groups
rownamemar<-row.names(mar)
newmar<-data.frame(rownamemar,mar$`data$病情指数`,mar$groups)
sort<-newmar[order(newmar$rownamemar),]
# 将groups的数据框按列名排序,目的是保持与均值标准差的数据一一对应
rowname<-row.names(out$means)
mean<-out$means[,1]
sd<-out$means[,2]
marker<-sort$mar.groups
plotdata<-data.frame(rowname,mean,sd,marker)
plotdata
#可视化作图
install.packages("ggplot2")
library("ggplot2")
p1<-ggplot(plotdata,aes(x=factor(rowname),y=mean))+geom_bar(position=position_dodge(0.6),width = 0.5,stat = "identity")
p1
p2<-p1+geom_errorbar(aes(ymin=mean-sd,ymax=mean+sd),position=position_dodge(0.6),width=0.2)
p3<-p2+geom_text(aes(x=factor(rowname),y=mean+sd+2.0,label=marker),size=3,position= position_dodge(0.6))
p3
p4<-p3+xlab("")+ylab("病情指数")
p4
p5<-p4+coord_cartesian(ylim= c(0,100),expand = FALSE)
p5
#更改y轴显示范围,这里的expand默认为TRUE
mytheme<-theme_bw()+theme(axis.title =element_text(size = 12),
                          axis.text =element_text(size=12),
                          panel.grid.major =element_line(color ="white"),
                          panel.grid.minor =element_line(colour = "white"),
                          axis.text.x =element_text(size = 12,angle=0,vjust=0,hjust=0,color = "black"),
                          axis.text.y =element_text(size = 12,color ="black"),)
p5+mytheme
结果

这里发现Y范围范围太大,可以将p5<-p4+coord_cartesian(ylim= c(0,100),expand = FALSE)括号里的参数改为50
可以看我主要改了哪里,然后对应的改为自己的数据即可。
其实R语言没有想象中那么难。这话从一个学了两个月新手嘴里说出,是有点“飘”了,用老家的方言说就是“你太刨了”。我知道可能会被打,新手上路,多多包涵。
有时候知道这行代码什么意思就可以了,用的时候搜别人写过的代码套自己的就可以了。这套代码我也是网上搬过来的,然后花了一个下午把它搞明白。搞明白之后最大的好处就是,一分钟内我就可以做出一张漂亮的单因素方差分析图。也算值了

用DPS做方差分析

将excel表格中数据复制粘贴过来就可以了

数据格式:第一列为分组信息;后面为重复1、重复2、重复3

比较麻烦的是,在excel中习惯一般都是用列来表示重复,DPS不一样恰好相反,可以在excel先复制,粘贴时选择转置,在粘贴到DPS中。

粘贴好数据后,选择试验统计——完全随机设计——单因素实验统计分析——选择两两比较的方法,可以指第一列的名称,也可以不指定。

结果如图

根据上述结果,用excel绘制柱型图,添加误差线,显著性字母。

具体方法自行百度,
之所以选择学R语言,就是因为我懒,典型肥宅,明明可以用软件解决的事,为啥在那里死磕呢?

上一篇下一篇

猜你喜欢

热点阅读