数据分析R公众号:阿区先生

R 数据处理(十二)—— dplyr

2021-01-23  本文已影响0人  名本无名

5. 过滤连接

过滤连接与可变连接匹配观察值的方式相同,但是会影响观察值,而不影响变量。

分为两种类型:

semi_join 对于将筛选后的汇总表与原始数据进行匹配非常有用。

例如,您想要找到了人流量最多的十大目的地:

> top_dest <- flights %>%
+     count(dest, sort = TRUE) %>%
+     head(10)
> top_dest
# A tibble: 10 x 2
   dest      n
   <chr> <int>
 1 ORD   17283
 2 ATL   17215
 3 LAX   16174
 4 BOS   15508
 5 MCO   14082
 6 CLT   14064
 7 SFO   13331
 8 FLL   12055
 9 MIA   11728
10 DCA    9705

现在,您想要查找去往那些目的地之一的航班

> flights %>% 
+     filter(dest %in% top_dest$dest) %>%
+         head(5)
# A tibble: 5 x 19
   year month   day dep_time sched_dep_time dep_delay arr_time sched_arr_time arr_delay carrier flight
  <int> <int> <int>    <int>          <int>     <dbl>    <int>          <int>     <dbl> <chr>    <int>
1  2013     1     1      542            540         2      923            850        33 AA        1141
2  2013     1     1      554            600        -6      812            837       -25 DL         461
3  2013     1     1      554            558        -4      740            728        12 UA        1696
4  2013     1     1      555            600        -5      913            854        19 B6         507
5  2013     1     1      557            600        -3      838            846        -8 B6          79
# … with 8 more variables: tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>,
#   hour <dbl>, minute <dbl>, time_hour <dttm>

但是很难将该方法扩展到多个变量。

例如,假设您知道平均延迟时间最高的十天,您将如何使用 year, monthday 来构造一个能够匹配 flights 中所有航班的过滤器?

semi-join 的连接方式与可变连接类似,但是不会添加新的列,而是保留 x 中所有与 y 匹配的观察值。

> flights %>% 
+     semi_join(top_dest) %>%
+         head(5)
Joining, by = "dest"
# A tibble: 5 x 19
   year month   day dep_time sched_dep_time dep_delay arr_time sched_arr_time arr_delay carrier flight
  <int> <int> <int>    <int>          <int>     <dbl>    <int>          <int>     <dbl> <chr>    <int>
1  2013     1     1      542            540         2      923            850        33 AA        1141
2  2013     1     1      554            600        -6      812            837       -25 DL         461
3  2013     1     1      554            558        -4      740            728        12 UA        1696
4  2013     1     1      555            600        -5      913            854        19 B6         507
5  2013     1     1      557            600        -3      838            846        -8 B6          79
# … with 8 more variables: tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>,
#   hour <dbl>, minute <dbl>, time_hour <dttm>

从图像上看是这样的

image.png

只有匹配的行才会保留下来,而且不会像可变连接一样重复行

image

semi-join 的逆是 anti-joinanti-join 保留不匹配的行

image.png

anti-join 对于不匹配的观察值很有用。例如,你想知道 flightsplanes 有多少不匹配的

> flights %>%
+     anti_join(planes, by = "tailnum") %>%
+     count(tailnum, sort = TRUE) %>% head(5)
# A tibble: 5 x 2
  tailnum     n
  <chr>   <int>
1 NA       2512
2 N725MQ    575
3 N722MQ    513
4 N723MQ    507
5 N713MQ    483

5.1 思考练习

  1. 航班缺少 tailnum 是什么意思?在 planes 上没有匹配记录的 tailnum 有什么共同点? (提示:有一个变量可解释大约 90% 的问题)

  2. 找到延迟 48 小时的航班,与 weather 表连接后能看出什么信息?

  3. 试着解释下面两行命令

anti_join(flights, airports, by = c("dest" = "faa"))
anti_join(airports, flights, by = c("faa" = "dest"))

6. 连接的问题

我们所使用的数据是已经被清洗过的,尽可能的为你减少不必要的麻烦。

但是你自己的数据可能不是很好,因此需要先对自己的数据做一些事情,以使连接能够顺利进行。

  1. 首先,要确定每个表中的主键。通常,应该基于对数据的理解来执行此操作,而不是凭经验来寻找唯一标识符的变量组合

例如,纬度和经度可以唯一地标识每个机场,但是它们并不是很好的标识符

> airports %>% count(alt, lon) %>% filter(n > 1)
# A tibble: 0 x 3
# … with 3 variables: alt <dbl>, lon <dbl>, n <int>
  1. 确保主键中没有任何变量确实。如果存在缺失值,则可能无法识别观察值

  2. 检查您的外键是否与另一个表中的主键匹配。最好的方法是使用 anti_join()

7. 集合操作

集合操作包括三个:

  1. intersect(x, y): 返回 xy 的交集
  2. union(x, y): 返回 xy 的并集
  3. setdiff(x, y): 返回 xy 的差集

对于数据集

df1 <- tribble(
  ~x, ~y,
   1,  1,
   2,  1
)
df2 <- tribble(
  ~x, ~y,
   1,  1,
   1,  2
)

有 4 种操作

> intersect(df1, df2)
# A tibble: 1 x 2
      x     y
  <dbl> <dbl>
1     1     1
> union(df1, df2)
# A tibble: 3 x 2
      x     y
  <dbl> <dbl>
1     1     1
2     2     1
3     1     2
> setdiff(df1, df2)
# A tibble: 1 x 2
      x     y
  <dbl> <dbl>
1     2     1
> setdiff(df2, df1)
# A tibble: 1 x 2
      x     y
  <dbl> <dbl>
1     1     2

8. 补充

dplyr 的大部分内容我们已经讲完了,剩下的一部分函数大家可以查看下面的速查表获取使用方法

image.png image.png

也可以在公众号 生信学习手册 后台回复 dplyr 获取该包的速查表 PDF 版。

上一篇下一篇

猜你喜欢

热点阅读