FigDraw 3. SCI 文章绘图必备 R 数据转换

2022-04-13 本文已影响0人桓峰基因

关注公众号，桓峰基因

桓峰基因 生物信息分析，SCI文章撰写及生物信息基础知识学习：R语言学习，perl基础编程，linux系统命令，Python遇见更好的你 70篇原创内容 --> 公众号

研究肿瘤克隆进化的同学可以关注桓峰基因小店，本月15号下午3：30在线直播！！

好多同学在处理数据的时候改不清每个软件包对输入数据的要求，有时要求是matrix，有时是list,有时是vector，有时是个object，并且一般基础绘图要求是宽数据，而ggplot2要求是长数据，所以数据转换往往是新手同学的拦路虎，那么这期咱们就灭了这只拦路虎，让自己走得更远，攀得更高！

前言

R中有许多用于数据框基本操作的内置函数，一般是基于 base 包的。而这个包是安装R是会自带的包，也就是说不用自己单独安装一次，并且无须加载就可以直接使用，除此之外，还有几种常用的数据处理的R包，包括：

{dplyr}
{tidyr}
{reshape2}
{tidyverse}

一般我们实验记录的数据格式（大多习惯用宽表格记录数据）和我们后期用R绘图所用到的数据格式往往不一样，例如ggplot2、plyr，还有大多数建模函数lm()、glm()、gam()等经常会使用长表格数据来作图，这时用reshape2包来转换实验记录的宽表格数据会十分方便。我们基于上述的五个R软件包，包括base一起说说他们怎么用，因为在高级绘图中往往出现的频率最高，也是处理数据对快的方式。

实例讲解

首先安装这是个常用软件包并加载，如下：

if (!require(dplyr)) {
    install.packages("dplyr")
}
if (!require(tidyr)) {
    install.packages("tidyr")
}
if (!require(reshape2)) {
    install.packages("reshape2")
}
if (!require(tidyverse)) {
    install.packages("tidyverse")
}
library(dplyr)
library(tidyr)
library(reshape2)
library(tidyverse)

1. {base}

R 软件包包括一些常用的数据处理的函数，比如rbind, cbind, transform 等函数，学会怎样处理简单的数据合并，转换，下面我们就举几个例子：

# 宽数据 library(help = 'base') 构建一个数据框
data1 <- data.frame(Level = LETTERS[1:4], x = 1:4, y = seq(7, 10), check.names = FALSE)
data1
##   Level x  y
## 1     A 1  7
## 2     B 2  8
## 3     C 3  9
## 4     D 4 10
data2 <- data.frame(Level = LETTERS[1:4], x = 5:8, y = seq(1, 4), check.names = FALSE)
data2
##   Level x y
## 1     A 5 1
## 2     B 6 2
## 3     C 7 3
## 4     D 8 4
# 合并数据 列合并
data <- cbind(data1, data2)
data
##   Level x  y Level x y
## 1     A 1  7     A 5 1
## 2     B 2  8     B 6 2
## 3     C 3  9     C 7 3
## 4     D 4 10     D 8 4
# 行合并
data <- rbind(data1, data2)
data
##   Level x  y
## 1     A 1  7
## 2     B 2  8
## 3     C 3  9
## 4     D 4 10
## 5     A 5  1
## 6     B 6  2
## 7     C 7  3
## 8     D 8  4
# 为原数据框添加新的列，改变原变量列的值，还可通过赋值NULL删除列变量
transform(data, x = -x, y = y + 2)
##   Level  x  y
## 1     A -1  9
## 2     B -2 10
## 3     C -3 11
## 4     D -4 12
## 5     A -5  3
## 6     B -6  4
## 7     C -7  5
## 8     D -8  6

2. {dplyr}

dplyr是R语言的数据分析包，能对data frame类型的数据做很方便的数据处理和分析操作。dplyr如同R的大多数包，都是函数式编程。优点是初学者比较容易接受这种函数式思维，有点类似于流水线，每个函数就是一个车间，多个车间共同完成一个生产（数据分析）任务。而在dplyr中，就有一个管道符 %>% 经常出现在绘图过程中对数据的处理，该符号左侧表示数据的输入，右侧表示下游数据处理环节。

我们这里举几个常用的函数，如下：

dplyr is a grammar of data manipulation, providing a consistent set of verbs that help you solve the most common data manipulation challenges:mutate() adds new variables that are functions of existing variablesselect() picks variables based on their names.filter() picks cases based on their values.summarise() reduces multiple values down to a single summary.arrange() changes the ordering of the rows.

# 对x列进行排序
arrange(data, -x)
##   Level x  y
## 1     D 8  4
## 2     C 7  3
## 3     B 6  2
## 4     A 5  1
## 5     D 4 10
## 6     C 3  9
## 7     B 2  8
## 8     A 1  7

# 选择数据的Level和x
select(data, Level, x)
##   Level x
## 1     A 1
## 2     B 2
## 3     C 3
## 4     D 4
## 5     A 5
## 6     B 6
## 7     C 7
## 8     D 8
# 另一种方式选择
select(data, -y)
##   Level x
## 1     A 1
## 2     B 2
## 3     C 3
## 4     D 4
## 5     A 5
## 6     B 6
## 7     C 7
## 8     D 8

# 按照筛选条件选择数据
filter(data, x >= 3)
##   Level x  y
## 1     C 3  9
## 2     D 4 10
## 3     A 5  1
## 4     B 6  2
## 5     C 7  3
## 6     D 8  4
# 筛选下>=3,y>=5
filter(data, (x >= 3 & y >= 5))
##   Level x  y
## 1     C 3  9
## 2     D 4 10

# 将现有的字段经过计算后生成新字段
mutate(data, xy = x * y, log = log(xy))
##   Level x  y xy      log
## 1     A 1  7  7 1.945910
## 2     B 2  8 16 2.772589
## 3     C 3  9 27 3.295837
## 4     D 4 10 40 3.688879
## 5     A 5  1  5 1.609438
## 6     B 6  2 12 2.484907
## 7     C 7  3 21 3.044522
## 8     D 8  4 32 3.465736
# 得到记录的位置(行数)
mutate(data, n = row_number())
##   Level x  y n
## 1     A 1  7 1
## 2     B 2  8 2
## 3     C 3  9 3
## 4     D 4 10 4
## 5     A 5  1 5
## 6     B 6  2 6
## 7     C 7  3 7
## 8     D 8  4 8

# 计算x平均值
summarise(data, mean_x = mean(x))
##   mean_x
## 1    4.5
# Useful functions Center: mean(), median() Spread: sd(), IQR(), mad() Range:
# min(), max(), quantile() Position: first(), last(), nth(), Count: n(),
# n_distinct() Logical: any(), all()

# 对资料进行分组
group_by(data, Level)
## # A tibble: 8 x 3
## # Groups:   Level [4]
##   Level     x     y
##   <chr> <int> <int>
## 1 A         1     7
## 2 B         2     8
## 3 C         3     9
## 4 D         4    10
## 5 A         5     1
## 6 B         6     2
## 7 C         7     3
## 8 D         8     4

我们也可以用管道符 %>% ，两种写法得到的运行结果是一致的，可能用久了会觉得管道符 %>% 可读性更强，后面我们都会用 %>% 来写代码。

# 对x列进行排序
data %>%
    arrange(-x)
##   Level x  y
## 1     D 8  4
## 2     C 7  3
## 3     B 6  2
## 4     A 5  1
## 5     D 4 10
## 6     C 3  9
## 7     B 2  8
## 8     A 1  7

# 选择数据的Level和x
data %>%
    select(Level, x)
##   Level x
## 1     A 1
## 2     B 2
## 3     C 3
## 4     D 4
## 5     A 5
## 6     B 6
## 7     C 7
## 8     D 8
# 另一种方式选择
data %>%
    select(-y)
##   Level x
## 1     A 1
## 2     B 2
## 3     C 3
## 4     D 4
## 5     A 5
## 6     B 6
## 7     C 7
## 8     D 8

# 按照筛选条件选择数据
data %>%
    filter(x >= 3)
##   Level x  y
## 1     C 3  9
## 2     D 4 10
## 3     A 5  1
## 4     B 6  2
## 5     C 7  3
## 6     D 8  4
# 筛选下>=3,y>=5
data %>%
    filter((x >= 3 & y >= 5))
##   Level x  y
## 1     C 3  9
## 2     D 4 10

# 将现有的字段经过计算后生成新字段
data %>%
    mutate(xy = x * y, log = log(xy))
##   Level x  y xy      log
## 1     A 1  7  7 1.945910
## 2     B 2  8 16 2.772589
## 3     C 3  9 27 3.295837
## 4     D 4 10 40 3.688879
## 5     A 5  1  5 1.609438
## 6     B 6  2 12 2.484907
## 7     C 7  3 21 3.044522
## 8     D 8  4 32 3.465736
# 得到记录的位置(行数)
data %>%
    mutate(n = row_number())
##   Level x  y n
## 1     A 1  7 1
## 2     B 2  8 2
## 3     C 3  9 3
## 4     D 4 10 4
## 5     A 5  1 5
## 6     B 6  2 6
## 7     C 7  3 7
## 8     D 8  4 8

# 计算x平均值
data %>%
    summarise(mean_x = mean(x))
##   mean_x
## 1    4.5


# 对资料进行分组
data %>%
    group_by(Level)
## # A tibble: 8 x 3
## # Groups:   Level [4]
##   Level     x     y
##   <chr> <int> <int>
## 1 A         1     7
## 2 B         2     8
## 3 C         3     9
## 4 D         4    10
## 5 A         5     1
## 6 B         6     2
## 7 C         7     3
## 8 D         8     4
# 为了让大家看到分组的功效，咱们按照Level分别计算x的平均数
data %>%
    group_by(Level) %>%
    summarise(mean_x = mean(x))
## # A tibble: 4 x 2
##   Level mean_x
##   <chr>  <dbl>
## 1 A          3
## 2 B          4
## 3 C          5
## 4 D          6

其他函数可以参考cheat,如下：

https://dplyr.tidyverse.org/

3. {tidyr}

tidyr用于数据处理，可以实现数据长格式和宽格式之间的相互转换，这里所指的长格式数据就是一个观测对象由多行组成，而宽数据格式则是一个观测仅由一行组成。除此之外，tidyr还可以对数据进行拆分和合并，同时也能够对缺失值进行简单的处理。tidyr的转换函数gather（宽到长）和spread（长到宽）所需参数少，逻辑上更易理解，自始至终都围绕着data，key、value三个参数来进行设定，对比其它R语言长宽格式互换的实现方式，个人认为tidyr操作性还是比较突出的。

当我们用R处理数据时，应该遵循Tidy data的原则：

每一列都是变量;

每一行都是一个观察结果;

每个单元格都是一个单独的值。

我们这里主要介绍tidyr包的四个常用函数：

gather：宽数据转为长数据：
spread：长数据转为宽数据；
unit：多列合并为一列；
separate：将一列分离为多列。

rownames(data) = paste("Sample", 1:8, sep = "")
data$Sample = paste("Sample", 1:8, sep = "")
data
##         Level x  y  Sample
## Sample1     A 1  7 Sample1
## Sample2     B 2  8 Sample2
## Sample3     C 3  9 Sample3
## Sample4     D 4 10 Sample4
## Sample5     A 5  1 Sample5
## Sample6     B 6  2 Sample6
## Sample7     C 7  3 Sample7
## Sample8     D 8  4 Sample8
# 宽数据转为长数据
data_long <- gather(data, Variable, Value, -Sample)
data_long
##     Sample Variable Value
## 1  Sample1    Level     A
## 2  Sample2    Level     B
## 3  Sample3    Level     C
## 4  Sample4    Level     D
## 5  Sample5    Level     A
## 6  Sample6    Level     B
## 7  Sample7    Level     C
## 8  Sample8    Level     D
## 9  Sample1        x     1
## 10 Sample2        x     2
## 11 Sample3        x     3
## 12 Sample4        x     4
## 13 Sample5        x     5
## 14 Sample6        x     6
## 15 Sample7        x     7
## 16 Sample8        x     8
## 17 Sample1        y     7
## 18 Sample2        y     8
## 19 Sample3        y     9
## 20 Sample4        y    10
## 21 Sample5        y     1
## 22 Sample6        y     2
## 23 Sample7        y     3
## 24 Sample8        y     4
# 管道符处理
data %>%
    gather(Variable, Value, -Sample)
##     Sample Variable Value
## 1  Sample1    Level     A
## 2  Sample2    Level     B
## 3  Sample3    Level     C
## 4  Sample4    Level     D
## 5  Sample5    Level     A
## 6  Sample6    Level     B
## 7  Sample7    Level     C
## 8  Sample8    Level     D
## 9  Sample1        x     1
## 10 Sample2        x     2
## 11 Sample3        x     3
## 12 Sample4        x     4
## 13 Sample5        x     5
## 14 Sample6        x     6
## 15 Sample7        x     7
## 16 Sample8        x     8
## 17 Sample1        y     7
## 18 Sample2        y     8
## 19 Sample3        y     9
## 20 Sample4        y    10
## 21 Sample5        y     1
## 22 Sample6        y     2
## 23 Sample7        y     3
## 24 Sample8        y     4

# 长数据转为宽数据
spread(data_long, Variable, Value)
##    Sample Level x  y
## 1 Sample1     A 1  7
## 2 Sample2     B 2  8
## 3 Sample3     C 3  9
## 4 Sample4     D 4 10
## 5 Sample5     A 5  1
## 6 Sample6     B 6  2
## 7 Sample7     C 7  3
## 8 Sample8     D 8  4
# 管道符
data_long %>%
    spread(Variable, Value)
##    Sample Level x  y
## 1 Sample1     A 1  7
## 2 Sample2     B 2  8
## 3 Sample3     C 3  9
## 4 Sample4     D 4 10
## 5 Sample5     A 5  1
## 6 Sample6     B 6  2
## 7 Sample7     C 7  3
## 8 Sample8     D 8  4

# 多列合并为一列
data_unite <- unite(data, Sample2Level, Sample, Level, sep = "_")
data_unite
##         Sample2Level x  y
## Sample1    Sample1_A 1  7
## Sample2    Sample2_B 2  8
## Sample3    Sample3_C 3  9
## Sample4    Sample4_D 4 10
## Sample5    Sample5_A 5  1
## Sample6    Sample6_B 6  2
## Sample7    Sample7_C 7  3
## Sample8    Sample8_D 8  4
# 管道符处理
data %>%
    unite(Sample2Level, Sample, Level, sep = "_")
##         Sample2Level x  y
## Sample1    Sample1_A 1  7
## Sample2    Sample2_B 2  8
## Sample3    Sample3_C 3  9
## Sample4    Sample4_D 4 10
## Sample5    Sample5_A 5  1
## Sample6    Sample6_B 6  2
## Sample7    Sample7_C 7  3
## Sample8    Sample8_D 8  4

# 将一列分离为多列
separate(data_unite, Sample2Level, c("Sample", "Level"), sep = "_")
##          Sample Level x  y
## Sample1 Sample1     A 1  7
## Sample2 Sample2     B 2  8
## Sample3 Sample3     C 3  9
## Sample4 Sample4     D 4 10
## Sample5 Sample5     A 5  1
## Sample6 Sample6     B 6  2
## Sample7 Sample7     C 7  3
## Sample8 Sample8     D 8  4
# 管道符处理
data_unite %>%
    separate(Sample2Level, c("Sample", "Level"), sep = "_")
##          Sample Level x  y
## Sample1 Sample1     A 1  7
## Sample2 Sample2     B 2  8
## Sample3 Sample3     C 3  9
## Sample4 Sample4     D 4 10
## Sample5 Sample5     A 5  1
## Sample6 Sample6     B 6  2
## Sample7 Sample7     C 7  3
## Sample8 Sample8     D 8  4

其他数据操作函数参考官网，如下：

https://tidyr.tidyverse.org/

4. {reshape2}

reshape2是由Hadley Wickham编写的R包，可以轻松地在宽格式（wide-format）和长格式（long-format）之间转换数据。reshape2R包主要有两个主要的功能：melt和cast

melt：将wide-format数据“熔化”成long-format数据；
cast：获取long-format数据“重铸”成wide-format数据。

这两个命名十分形象，方便记忆，你可以想象成你在处理金属。当你熔化金属成液体滴下时，金属会被拉长（long-format）。如果你把金属它铸成一个模子，它就会变宽（wide-format）。

# 数据融合
data_melt <- melt(data, id.vars = c("Sample", "Level"), variable.name = "Group",
    value.name = "Score")
data_melt
##     Sample Level Group Score
## 1  Sample1     A     x     1
## 2  Sample2     B     x     2
## 3  Sample3     C     x     3
## 4  Sample4     D     x     4
## 5  Sample5     A     x     5
## 6  Sample6     B     x     6
## 7  Sample7     C     x     7
## 8  Sample8     D     x     8
## 9  Sample1     A     y     7
## 10 Sample2     B     y     8
## 11 Sample3     C     y     9
## 12 Sample4     D     y    10
## 13 Sample5     A     y     1
## 14 Sample6     B     y     2
## 15 Sample7     C     y     3
## 16 Sample8     D     y     4
# 管道符处理
data %>%
    melt(id.vars = c("Sample", "Level"), variable.name = "Group", value.name = "Score")
##     Sample Level Group Score
## 1  Sample1     A     x     1
## 2  Sample2     B     x     2
## 3  Sample3     C     x     3
## 4  Sample4     D     x     4
## 5  Sample5     A     x     5
## 6  Sample6     B     x     6
## 7  Sample7     C     x     7
## 8  Sample8     D     x     8
## 9  Sample1     A     y     7
## 10 Sample2     B     y     8
## 11 Sample3     C     y     9
## 12 Sample4     D     y    10
## 13 Sample5     A     y     1
## 14 Sample6     B     y     2
## 15 Sample7     C     y     3
## 16 Sample8     D     y     4

# 长数据转换成宽数据,将melt之后的data_melt转换成原始数据
dcast(data_melt, Sample + Level ~ Group)
##    Sample Level x  y
## 1 Sample1     A 1  7
## 2 Sample2     B 2  8
## 3 Sample3     C 3  9
## 4 Sample4     D 4 10
## 5 Sample5     A 5  1
## 6 Sample6     B 6  2
## 7 Sample7     C 7  3
## 8 Sample8     D 8  4
# 管道符处理
data_melt %>%
    dcast(Sample + Level ~ Group)
##    Sample Level x  y
## 1 Sample1     A 1  7
## 2 Sample2     B 2  8
## 3 Sample3     C 3  9
## 4 Sample4     D 4 10
## 5 Sample5     A 5  1
## 6 Sample6     B 6  2
## 7 Sample7     C 7  3
## 8 Sample8     D 8  4

其他函数可参考网站，如下：

https://seananderson.ca/2013/10/19/reshape/

5. {tidyverse}

tidyverse是为数据科学设计的R软件包，它包含(ggplot2、dplyr、tidyr、stringr、magrittr、tibble)等一系列热门软件包，学好tidyverse的使用可也让你站上另一个高度，从而高效的处理数据，因此本文档不仅仅做一些案例介绍，而是希望以较为正确的学习方法来介绍R语言，使大家少走弯路，快速入门掌握R语言。这个包好多的函数都在上面的几个包中讲过，但是大飞哥终结的很全面，我就直接采用了，方便大家查找和使用，代码如下：

https://dengfei2013.gitee.io/r-language-advanced/

其他更多函数的讲解参考官网，如下：

https://tidyverse.tidyverse.org

本文使用文章同步助手同步