r 语言快速出图——单因素方差带字母显著性标记

2019-05-19 本文已影响28人小三的后一位小四

相信带字母的显著性标记图大家都不会陌生，在许多文献中多可以看到类似的图。首先来看看它长啥样

用不同的字母来表示显著性，字母相同不显著

不管是在月末组会汇报，还是自己写文章过程中都会用到。今天就一起来学一下怎么做。
首先学一个概念数据可视化，

可视化：可视化（Visualization）是利用计算机图形学和技术，将数据转换成图形或图像在屏幕上显示出来，再进行交互处理的理论、方法和技术。

大概意思就是说一图胜千言。看看那些好杂志的文章，不得不承认人家的图确实简洁好看，言简意赅。哎！作图也是有功力的。多向大佬膜拜膜拜，哈哈哈

回到正题，这类图该如何做呢！大概有两种做法：一种是利用统计软件（eg：SPSS、DPS等）先分析得到结果,再利用其他生物绘图工具（eg:EXCEL工具）做出柱状图，再把字母和误差线加上添加；第二种就是利用R语言这类专业用代码一键出图。首先我会先用R语言进行单因素方差分析。然后再介绍一款超级简单的统计软件DPS做一遍。

R语言

准备工作

预装R软件
预装R-studio
整理好的数据表
可以用EXCEL表格工具整理好，保存为.txt文件

数据格式：第一列为分组信息，第二列为不同观测的值，若有多列向后加即可。eg:假如还有株高、鲜重等指标。依次加到后面即可

代码部分

#加载我的工作目录
setwd("G:/我的坚果云/研究生/实验数据")
#读取数据，换成自己的文件名即可
data <- read.table("123.txt",sep="\t",header=TRUE)
#这一句的意思是：将你的分组信息转化为factor，不然软件在运算过程种识别不了
data$处理 <- as.factor(data$处理)
#查看导入表格中发病率这一列的数据类型
class(data$处理)
#这里出现 factor 就可以下一步了
#方差齐性检验
#法1bartlett.test
nom <- bartlett.test(data$发病率~data$处理,data = data)
nom
#法2
install.packages("car")
library(car)
nom1<-leveneTest(data1$发病率~data1$gruop,data = data1)
nom$p.value
#最后两个的p.value大于0.05 说明方差是齐性，可以进行下一步分析
# 单因素方差分析，整体来看差异显著
oneway<-aov(data$发病率~data$处理,data = data)
anova(oneway)

anova(oneway)结果

#多重比较
# LSD法（Fisher’s Least Significant Difference）
# LSD法检验处微小的差异，比较方便的是直接得出显著行标记，不需人工标记
install.packages("agricolae")
library("agricolae")
out <- LSD.test(oneway,"data$处理",p.adj="none")
out

out结果

嗯，到这分析已经结束了。下面开始绘制图形

#整理绘图需要的表格
mar<-out$groups
rownamemar<-row.names(mar)
newmar<-data.frame(rownamemar,mar$`data$发病率`,mar$groups)
sort<-newmar[order(newmar$rownamemar),]
# 将groups的数据框按列名排序，目的是保持与均值标准差的数据一一对应
rowname<-row.names(out$means)
mean<-out$means[,1]
sd<-out$means[,2]
marker<-sort$mar.groups
plotdata<-data.frame(rowname,mean,sd,marker)
plotdata

plotdata结果

install.packages("ggplot2")
library("ggplot2")
p1<-ggplot(plotdata,aes(x=factor(rowname),y=mean))+geom_bar(position=position_dodge(0.6),width = 0.5,stat = "identity")
p1
p2<-p1+geom_errorbar(aes(ymin=mean-sd,ymax=mean+sd),position=position_dodge(0.6),width=0.2)
p3<-p2+geom_text(aes(x=factor(rowname),y=mean+sd+2.0,label=marker),size=3,position= position_dodge(0.6))
p3
p4<-p3+xlab("")+ylab("发病率（%）")
p4
p5<-p4+coord_cartesian(ylim= c(0,100),expand = FALSE)
p5
#发现没有ggplot2的作图方式挺好玩的，就像玩俄罗斯方块一样，一层一层往上加，
#更改y轴显示范围，这里的expand默认为TRUE
mytheme<-theme_bw()+theme(axis.title =element_text(size = 12),
                          axis.text =element_text(size=12),
                          panel.grid.major =element_line(color ="white"),
                          panel.grid.minor =element_line(colour = "white"),
                          axis.text.x =element_text(size = 12,angle=0,vjust=0,hjust=0,color = "black"),
                          axis.text.y =element_text(size = 12,color ="black"),)
p5+mytheme
coord_cartesian(ylim = c(0,60),expand =FALSE)的expand改为TRUE。
ggsave("发病率.pdf", width = 10, height= 10, units = "cm")
end

最后结果图

有了这套代码，小伙伴就可以根据自己的需要仅更改几个地方就可以完成分析了。

如何根据自己的需要改呢

还是用上面的数据。比如我现先还要做病情指数的分析

setwd("G:/我的坚果云/研究生/实验数据")
data <- read.table("123.txt",sep="\t",header=TRUE)
data$处理 <- as.factor(data$处理)
class(data$处理)
#方差齐性检验
#法1bartlett.test
nom <- bartlett.test(data$病情指数~data$处理,data = data)
nom
#法2
install.packages("car")
library(car)
nom1<-leveneTest(data$病情指数~data1$gruop,data = data1)
nom$p.value
#nom$p.value大于0.05 说明方差是齐性
# 单因素方差分析，整体来看差异显著
oneway<-aov(data$病情指数~data$处理,data = data)
anova(oneway)
#多重比较
# LSD法（Fisher’s Least Significant Difference）
# LSD法检验处微小的差异，比较方便的是直接得出显著行标记，不需人工标记
install.packages("agricolae")
library("agricolae")
out <- LSD.test(oneway,"data$处理",p.adj="none")
out
mar<-out$groups
rownamemar<-row.names(mar)
newmar<-data.frame(rownamemar,mar$`data$病情指数`,mar$groups)
sort<-newmar[order(newmar$rownamemar),]
# 将groups的数据框按列名排序，目的是保持与均值标准差的数据一一对应
rowname<-row.names(out$means)
mean<-out$means[,1]
sd<-out$means[,2]
marker<-sort$mar.groups
plotdata<-data.frame(rowname,mean,sd,marker)
plotdata
#可视化作图
install.packages("ggplot2")
library("ggplot2")
p1<-ggplot(plotdata,aes(x=factor(rowname),y=mean))+geom_bar(position=position_dodge(0.6),width = 0.5,stat = "identity")
p1
p2<-p1+geom_errorbar(aes(ymin=mean-sd,ymax=mean+sd),position=position_dodge(0.6),width=0.2)
p3<-p2+geom_text(aes(x=factor(rowname),y=mean+sd+2.0,label=marker),size=3,position= position_dodge(0.6))
p3
p4<-p3+xlab("")+ylab("病情指数")
p4
p5<-p4+coord_cartesian(ylim= c(0,100),expand = FALSE)
p5
#更改y轴显示范围，这里的expand默认为TRUE
mytheme<-theme_bw()+theme(axis.title =element_text(size = 12),
                          axis.text =element_text(size=12),
                          panel.grid.major =element_line(color ="white"),
                          panel.grid.minor =element_line(colour = "white"),
                          axis.text.x =element_text(size = 12,angle=0,vjust=0,hjust=0,color = "black"),
                          axis.text.y =element_text(size = 12,color ="black"),)
p5+mytheme

结果

这里发现Y范围范围太大，可以将p5<-p4+coord_cartesian(ylim= c(0,100),expand = FALSE)括号里的参数改为50
可以看我主要改了哪里，然后对应的改为自己的数据即可。
其实R语言没有想象中那么难。这话从一个学了两个月新手嘴里说出，是有点“飘”了，用老家的方言说就是“你太刨了”。我知道可能会被打，新手上路，多多包涵。
有时候知道这行代码什么意思就可以了，用的时候搜别人写过的代码套自己的就可以了。这套代码我也是网上搬过来的，然后花了一个下午把它搞明白。搞明白之后最大的好处就是，一分钟内我就可以做出一张漂亮的单因素方差分析图。也算值了

用DPS做方差分析

将excel表格中数据复制粘贴过来就可以了

数据格式：第一列为分组信息；后面为重复1、重复2、重复3

比较麻烦的是，在excel中习惯一般都是用列来表示重复，DPS不一样恰好相反，可以在excel先复制，粘贴时选择转置，在粘贴到DPS中。

粘贴好数据后，选择试验统计——完全随机设计——单因素实验统计分析——选择两两比较的方法，可以指第一列的名称，也可以不指定。

结果如图

根据上述结果，用excel绘制柱型图，添加误差线，显著性字母。

具体方法自行百度，
之所以选择学R语言，就是因为我懒，典型肥宅，明明可以用软件解决的事，为啥在那里死磕呢？