统计分析方法R data manipulate

R for Data Science(笔记) ---数据变换(归

2021-07-07  本文已影响0人  生信小鹏
R for Data Science

tidy流处理数据的方便,我想这与管道符%>% 的使用,数据处理动词化,有着很重要的关系。

自己之所以写这些,主要是考虑只有把东西讲出来,才能真正学会。通过笔记的形式,让自己真正把R数据处理的能力提高。

summarise()函数

其实我平时对这个函数的使用不是很多,主要是因为不太做数据归纳及归纳作图的事情。但是这个函数我觉得强大之处就是和group_by()函数连用。

elays <- flights %>% 
  group_by(dest) %>% 
  summarise(
    count = n(),
    dist = mean(distance, na.rm = TRUE),
    delay = mean(arr_delay, na.rm = TRUE)
  ) %>% 
  filter(count > 20, dest != "HNL")

上面这段代码,用到了管道符 %>%, 可以理解为“then”(然后)这侧重于转换,而不是正在转换的内容,这使代码更易于阅读。而和group_by()结合,将一个整体数据分割成预想的数据样式,而不重新创建新的变量,减少内存的占用量。

count()用来总结数据,同时也可以再summarize里面创建新的变量。

相较于summarize函数,我个人平时使用频率高的主要是table()函数,只是单纯看一下数据的量的多少,个人习惯。

欢迎指正

上一篇下一篇

猜你喜欢

热点阅读