用ggplot2做一个箱图--写给刚刚开始用ggplot2作图的
作图思路
-
首先要设计好需要作图类型。我展示组与组之间比较某一指标的差异的情况比较多,这个一般选用箱图。但是为了表达更多的信息,有时也会把单个数据以点图的形式叠加展示出来。
-
一般不同的组都会用不同的颜色表示,这样颜色的搭配就成为了一个问题,怎样更美观又不会太花哨。
-
组与组之间的比较还会做统计结果的标注,标记星号或者p值,一般来说标记星号就够了。
选择包
library(ggplot2)
library(ggsci) # 颜色
library(ggsignif) # 增加统计标记
做一个基本的图
ggplot(data = mtcars, aes(x = as.factor(gear), y = mpg)) + geom_boxplot() +
labs(x = "Gears", y = "MPG") +
theme_classic()
Rplot.png
以上是一个最基本的箱图,它展示了数据的整体分布情况。但是一般文献里还会把每一个数据点也都展示出来,那就应该是下面这个样子。
ggplot(data = mtcars, aes(x = as.factor(gear), y = mpg)) +
geom_boxplot() +
geom_dotplot(binaxis = "y", stackdir = "center") +
labs(x = "Gears", y = "MPG") +
theme_classic()
Rplot01.png
大家看到的用到的geom_dotplot()
这样一个图形。我初学时第一反应是geom_point()
。尝试一下就可以看出差别来,geom_point()
所有点都是一列,重叠的点区分不出,geom_dotplot()
对点的位置进行调整,把相互重叠点区分开来了。
这里引出来ggplot的一个概念,“图层”。实际上我们是在geom_boxplot()
上面又覆盖了一层geom_dotplot()
图层。为什么是覆盖呢?你可以尝试把代码中两个geom的位置互换一下,你就会看到,box会掩盖掉一部分dots。
美化美化
下面就是颜色的问题了。如何给不同的组标上不同的颜色以示区分呢?这个对于ggplot2来说很简单。
ggplot(data = mtcars, aes(x = as.factor(gear), y = mpg, color = as.factor(gear))) +
geom_boxplot() +
geom_dotplot(aes(fill = as.factor(gear)), binaxis = "y", stackdir = "center") +
labs(x = "Gears", y = "MPG") +
guides(color = guide_legend("Gear"), fill = guide_legend("Gear")) +
scale_color_aaas() +
scale_fill_aaas() +
theme_classic()
Rplot02.png
简单说一下上面的代码。默认大家能理解在aes()
中增加color = as.factor(gear)
的含义(应该是涉及到映射的概念,大家百度或gg一下映射,或者颜色映射应该很容易找到相关的解释)。请注意一下geom_dotpot()
中增加了fill = as.factor(gear)
。这是因为对于一个点来说,它包含了边和内部两个部分。color设定的是边的颜色,这个是从ggplot()
里面的aes()
继承下来的,所以不用再次设定。而填充的颜色则是fill,需要在这里设定一下。
相对应的后面增加了两个scale,scale_color_aaas()
和scale_fill_aaas()
,对应于color和fill各一个。aaas是美国科学促进会,出版science的,上面的函数表示会把color和fill的颜色设定成science风格的颜色。这个函数来自于ggsci
包,是很有意思的一个ggplot2的相关包,对于颜色选择障碍认识很有帮助。
好的目前为止,似乎已经完成了我前面说的前两点了。下面来完成第3点,增加统计学标记。
ggplot(data = mtcars, aes(x = as.factor(gear), y = mpg, color = as.factor(gear))) +
geom_boxplot() +
geom_dotplot(aes(fill = as.factor(gear)), binaxis = "y", stackdir = "center") +
geom_signif(comparisons = list(c("3", "4")), map_signif_level = T) +
labs(x = "Gears", y = "MPG") +
guides(color = guide_legend("Gear"), fill = guide_legend("Gear")) +
scale_color_aaas() +
scale_fill_aaas() +
theme_classic()
Rplot03.png
大家看到这回有增加了一个geom_signif
,其内部的参数设置的意思是标出“3”和“4”之间( comparisons
)的统计学差异的显著性水平(map_signif_level = T
表示标注星号,否则标注p值)。为什么仅标注了3和4之间的差异呢?事实上其他的比较对也可以增加,通过comparisons = list(c("3", "4"), c("3", "5"))
这样类似的可以添加多个比较对,但是本数据中其他比较对统计学差异不显著,因此这里省略了,没有添加。当然添加统计学差异的标记还有一个用的很广的ggpubr
包。对于我来说,ggsignif包中调整标记位置之类的函数记得相对清楚一点,但是ggpubr中的参数记得不清楚,还总是混。读者感兴趣可以多了解一下ggpubr包。
有点像样了吧
至此,一个有点像样的图做出来了,解决了有还是没有的问题,但其实问题还是挺多的,比如横纵坐标的字体,有的杂志都是有要求的。字号调整大小也是问题,还有颜色调整的问题(颜色是很个性化的,有些人就是偏执于自己喜欢的颜色,看不上science的配色),图形比例问题等。