R for Data Science（笔记） ---数据变换（归

2021-07-07 本文已影响0人生信小鹏

R for Data Science

tidy流处理数据的方便，我想这与管道符%>% 的使用，数据处理动词化，有着很重要的关系。

自己之所以写这些，主要是考虑只有把东西讲出来，才能真正学会。通过笔记的形式，让自己真正把R数据处理的能力提高。

summarise()函数

其实我平时对这个函数的使用不是很多，主要是因为不太做数据归纳及归纳作图的事情。但是这个函数我觉得强大之处就是和group_by()函数连用。

elays <- flights %>% 
  group_by(dest) %>% 
  summarise(
    count = n(),
    dist = mean(distance, na.rm = TRUE),
    delay = mean(arr_delay, na.rm = TRUE)
  ) %>% 
  filter(count > 20, dest != "HNL")

上面这段代码，用到了管道符 %>%, 可以理解为“then”（然后）这侧重于转换，而不是正在转换的内容，这使代码更易于阅读。而和group_by()结合，将一个整体数据分割成预想的数据样式，而不重新创建新的变量，减少内存的占用量。

count()用来总结数据，同时也可以再summarize里面创建新的变量。

相较于summarize函数，我个人平时使用频率高的主要是table()函数，只是单纯看一下数据的量的多少，个人习惯。

欢迎指正

R for Data Science（笔记） ---数据变换（归

summarise()函数

猜你喜欢

热点阅读