【R画图学习13.2】散点图---抖动散点图和蜂群图
今天我们学习绘制两种特殊的散点统计图,抖动散点图(jitter plot)和蜂群图((beeswarm plot)。
先生成随机的一组测试数据,包含两列,一列是代表group,一列是随机生成的y值。
y <- round(rnorm(1000), 1)
df <- data.frame(y = y,group = sample(c("G1", "G2", "G3", "G4", "G5"),size = 1000,replace = TRUE))
我们先来画一下普通散点图
通常,我们会首选绘制箱线图、提琴图或者柱形图等来展示整体概况,它们包含分位数或者均值等信息,以便初步观察和比较各药物治疗组的疗效的差异。但如果也想将每个个体的响应状态呈现出来,就需要在图中添加散点表示每个患者个体,参考以下示例。
ggplot(df, aes(x = group, y = y, color = group)) +
geom_point(size = 1.5, show.legend = FALSE) + #普通散点图
scale_color_manual(values = c('#EA5C15', '#EEE938', '#E61F18', '#69B72A', '#002D8E')) +
theme(panel.grid = element_blank(), panel.background = element_blank(),
axis.line = element_line(color = 'black')) + #去除默认的背景色、边框等
labs(x = 'Group', y = 'Response') +
stat_summary(fun.y = mean, fun.ymin = mean, fun.ymax = mean,
geom = 'crossbar', width = 0.3, size = 0.3, color = 'black') + #计算各组均值并添加在图中
stat_summary(fun.data = function(x) median_hilow(x, 0.5),
geom = 'errorbar', width = 0.25, size = 0.2, color = 'black') #计算各组标准差并添加在图中
下面我们测试一下抖动散点图。
抖动散点图(jitter plot)可以避免常规散点图中点过于重叠的情况,比如我们测试数据中一共1000个数据,分布比较集中,如果数据量再大,就会出现很多点重合的现象。这时候,我们就可以采用抖动散点图,它对散点添加随机的“抖动”效果,将散点适当地沿x轴刻度两侧拓展,在一定程度上表示出了局部分布。
ggplot(df, aes(x = group, y = y, color = group)) +
geom_jitter(size = 1.5, width = 0.2, show.legend = FALSE) + #直接使用该函数绘制抖动点,width 可调整抖动幅度
#geom_point(position = 'jitter', size = 1.5, show.legend = FALSE) + #或者在散点图中添加随机的抖动效果
scale_color_manual(values = c('#EA5C15', '#EEE938', '#E61F18', '#69B72A', '#002D8E')) +
theme(panel.grid = element_blank(), panel.background = element_blank(),
axis.line = element_line(color = 'black')) +
labs(x = 'Group', y = 'Response') +
stat_summary(fun.y = mean, fun.ymin = mean, fun.ymax = mean,
geom = 'crossbar', width = 0.3, size = 0.3, color = 'black') + #计算各组均值并添加在图中
stat_summary(fun.data = function(x) median_hilow(x, 0.5),
geom = 'errorbar', width = 0.25, size = 0.2, color = 'black') #计算各组标准差并添加在图中
而蜂群图((beeswarm plot)则和抖动散点图类似,也是对散点添加沿x轴刻度两侧的分散效果,但其特别之处在于,点的分散效果不是随机的。蜂群图采用了一种逻辑,以确保所绘制的点彼此靠近且不会重叠,并能更好地呈现出点分布的局部密度信息,直观而不失优雅。我们自己的感受是看上去更为紧凑。
ggplot(df, aes(x = group, y = y, color = group)) +
geom_beeswarm(cex = 1.5, show.legend = FALSE) + #蜂群图,cex 与点的大小和分散程度有关
scale_color_manual(values = c('#EA5C15', '#EEE938', '#E61F18', '#69B72A', '#002D8E')) + #颜色自定义赋值
theme(panel.grid = element_blank(), panel.background = element_blank(),
axis.line = element_line(color = 'black')) + #去除默认的背景色、边框等
labs(x = 'Group', y = 'Response') +
stat_summary(fun.y = mean, fun.ymin = mean, fun.ymax = mean,
geom = 'crossbar', width = 0.3, size = 0.3, color = 'black') + #计算各组均值并添加在图中
stat_summary(fun.data = function(x) median_hilow(x, 0.5),
geom = 'errorbar', width = 0.25, size = 0.2, color = 'black') #计算各组标准差并添加在图中
其实,蜂群图的整理看起来就和箱型图或者小提琴图有点类似了,也就是你如果侧重整体规律就可以选择箱型图或者小提琴图,但是如果想看个体的规律,就可以选择蜂群图。另外目前箱型图或者小提琴图也是可以加入抖动效果的。