ggplot绘图的艺术-3:映射:将数据变量对应到图形属性
1.映射
在上一节练习ggplot绘图的艺术-2:ggplot2的绘图思想中,我们已经涉及到了映射的概念。
所谓映射,就是数据集中的数据关联到相应的图形属性过程中一种对应关系。
映射主要分为以下几种类型:
- 颜色类:color(颜色或边框颜色)、fill(填充颜色)和alpha(透明度)
- 形状类:linetype(线型)、size(点的大小或线的宽度)和shape(形状)
- 位置类:x、y、xmin、xmax、ymin、ymax、xend、yend
- 特殊类:一类是group和order,另一类是字符串映射
下面,就以上述的映射关系进行演示:
#加载所需的包
library(ggplot2)
library(dplyr)
#使用ggplot2进行绘图,建立相应的映射关系
ggplot(data = dexp, aes(x = Sample, y = Expression))+
geom_point(aes(color = Gene,
size = Length,
shape = Group))
以上代码作出图的效果如下:
图片1.png2.分组
在ggplot中我们大概可以把几何对象分为2种:
- 个体几何对象:绘制的图像中的每一个点对应数据框中的每一个观测值,如geom_point
- 群组几何对象:绘制的图像中的每一个对象,对应数据框中多个观测值的统计结果,如geom_boxplot(用于绘制箱线图)
所以在使用类似于geom_boxplot这一类群组几何对象时,需要进行分组,ggplot默认以离散型变量分组。
变量按其数值表现是否连续,分为连续变量和离散变量。离散变量指变量值可以按一定顺序一一列举,通常以整数位取值的变量。在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。
#绘制背景图层
p <- ggplot(data = dexp, aes(x = Sample, y = Expression))
#添加箱线图层,默认以离散型变量Sample进行分组
p + geom_boxplot()
图片2.png
#绘制背景图层
p <- ggplot(data = dexp, aes(x = Sample, y = Expression))
#添加箱线图层,指定以Group进行分组
p + geom_boxplot(aes(group = Group))
图片3.png
3.分面
在进行生物信息学数据处理时,我们有时需要按不同的变量进行分组,分别绘制图形。比如,在上面的例子中。我们如果想要以Group分组,分别绘制基因的表达信息,实现一页多图的效果,如何实现呢?这就要涉及到ggplot中的另一个非常重要的概念:分面。
ggplot中实现分面有两个函数:facet_wrap和facet_grad。
(1)facet_wrap:以一个变量进行分面
facet_wrap(facets, nrow = NULL, ncol = NULL, scales = "fixed",
shrink = TRUE, labeller = "label_value", as.table = TRUE,
switch = NULL, drop = TRUE, dir = "h", strip.position = "top")
重要参数:
- facets:分面参数如~Group,表示用Group变量进行数据分类
- nrow:绘制图形的行数
- ncol:绘制图形的列数,一般nrow/ncol只设定一个即可
- scales:
fixed,小图都使用统一的坐标
free:每个小图按照自己的数据自由调整坐标
free_x:自由调整X轴刻度范围
free_y:自由调整y轴刻度范围
ggplot(data = dexp, aes(x = Sample, y = Expression))+
geom_point(aes(color = Gene,
size = Length,
shape = Group))+
facet_wrap(~Group, scales = "free")
效果如下:
图片4.png#以基因进行分面,绘制每个基因的表达量
ggplot(data = dexp, aes(x = Sample, y = Expression))+
geom_point()+
facet_wrap(~Gene, scales = "free", nrow = 10)
结果如下:
图片5.png(2)facet_grid:同时以两个变量进行分面
facet_grid(facets, margins = FALSE, scales = "fixed", space = "fixed",shrink = TRUE, labeller = "label_value", as.table = TRUE,switch = NULL, drop = TRUE)
与facet_wrap不同的重要参数:
- facets:应用两个变量分面,如Gene~Group,意为按Gene分行,按Group分列
- margins:True,包含所有数据的组
- space:每张小图的坐标轴宽度,值同scales
以两个变量Gene和Group进行分面:
dexp_small<-filter(dexp, Gene %in% paste("G", 1:10, sep = ""))
ps <- ggplot(data = dexp_small, aes(x = Sample, y = Expression))
ps + geom_point(aes(color = Length))+
facet_grid(Gene~Group,scales = "free")
结果如下:
图片6.png