生信猿R语言生物信息学R语言源码

高效数据整理工具——dplyr(二)多数据框处理

2018-07-17  本文已影响78人  井底蛙蛙呱呱呱

高效数据整理工具——dplyr(一)中,简要介绍使用dplyr对但数据表的处理,在本节中将会学习如何使用dplyr对多数据表进行处理。主要函数有如下图所示。

image.png

1、数据框合并

两个数据框合并可分别使用bind_rows(y, z)bind_cols(y, z)进行行或者列合并。

> df1 <- data.frame(a=1:2,b=3:4);df1
  a b
1 1 3
2 2 4
> df2 <-data.frame(a=5:6,b=7:8);df2
  a b
1 5 7
2 6 8
> bind_rows(df1,df2)
  a b
1 1 3
2 2 4
3 5 7
4 6 8
> bind_cols(df1,df2)
  a b a1 b1
1 1 3  5  7
2 2 4  6  8

此外,也可以使用R自带的rbind()cbind()进行数据框的合并。

2、数据框连接

dplyr提供了left_join(), right_join(), inner_join(), full_join()来提供不同的连接方式。
left_join() 以左边数据框为基准,将右边数据框连接进去,可存在一对多的映射关系,保留左边数据框的所有行。

> df1 <- data.frame(x = c(1, 2), y = 2:1)
> df2 <- data.frame(x = c(1, 3), a = 10, b = "a")
> df1;df2
  x y
1 1 2
2 2 1
  x  a b
1 1 10 a
2 3 10 a
> left_join(df1,df2)
Joining, by = "x"
  x y  a    b
1 1 2 10    a
2 2 1 NA <NA>

right_join()用法与left_join()相似,只是以右边为基准,连接左侧数据框。

> right_join(df1,df2)
Joining, by = "x"
  x  y  a b
1 1  2 10 a
2 3 NA 10 a

inner_join()则是选取连接后两个数据框都有的记录保留。

> inner_join(df1,df2)
Joining, by = "x"
  x y  a b
1 1 2 10 a

full_join()则是保留两个数据框的所有记录。

> inner_join(df1,df2)
Joining, by = "x"
  x y  a b
1 1 2 10 a

除了上面四种常见的连接方式外,dplyr还提供了另外两个函数通过共有记录来筛选数据:semi_join(x,y)只保留x中能与y匹配的记录;而anti_join(x,y)则是丢掉x中与y匹配的记录。

3、数据框间的交集、差集与并集

dplyr提供了intersect(x,y)union(x,y)setdiff(x,y)三个函数来分别进行求交集、并集和差集。

> df1 <- data_frame(x = 1:2, y = c(1L, 1L))
> df2 <- data_frame(x = 1:2, y = 1:2)
> df1;df2
# A tibble: 2 x 2
      x     y
  <int> <int>
1     1     1
2     2     1
# A tibble: 2 x 2
      x     y
  <int> <int>
1     1     1
2     2     2
> df1;df2
# A tibble: 2 x 2
      x     y
  <int> <int>
1     1     1
2     2     1
# A tibble: 2 x 2
      x     y
  <int> <int>
1     1     1
2     2     2
# 交集
> intersect(df1,df2)
# A tibble: 1 x 2
      x     y
  <int> <int>
1     1     1
# 并集
> union(df1,df2)
# A tibble: 3 x 2
      x     y
  <int> <int>
1     1     1
2     2     1
3     2     2
# 差集
> setdiff(df1,df2)
# A tibble: 1 x 2
      x     y
  <int> <int>
1     2     1
4、多个数据框的连接

对于多个数据框的连接可以使用purrr包中的reduce函数:

library(dplyr)
x <- data_frame(i = c("a","b","c"), j = 1:3)
y <- data_frame(i = c("b","c","d"), k = 4:6)
z <- data_frame(i = c("c","d","a"), l = 7:9)

list(x, y, z) %>% reduce(full_join, by = "i")
# A tibble: 4 x 4
# i         j     k     l
# <chr> <int> <int> <int>
#   1 a         1    NA     9
# 2 b         2     4    NA
# 3 c         3     5     7
# 4 d        NA     6     8

list(x, y, z) %>% reduce(inner_join, by = "i")
# A tibble: 1 x 4
# i         j     k     l
# <chr> <int> <int> <int>
#   1 c         3     5     7

参考:
R语言入门7:数据处理之双表操作-Dplyr
官方文档

上一篇下一篇

猜你喜欢

热点阅读