R数据科学day2-4
2018-11-06 本文已影响1人
梦幻天堂_ccd5
-
分组新变量
用到的变量有:select(),mutate(),summarize(),filter()。组合使用。
- 找出每组中最差的成员
flights_sml %>%
group_by(year, month, day) %>%
filter(rank(desc(arr_delay)) < 10)
注:<10的意思不是值,而是个数,是选择每天延误时间最长的10趟航班。
- 找出大于某个阈值的所有分组:
popular_dests <- flights %>%
group_by(dest) %>%
filter(n() > 365)
popular_dests
dest=77
- 筛选延误的航班,添加新变量,并显示指定列。
filter(arr_delay > 0) %>%
mutate(prop_delay = arr_delay / sum(arr_delay)) %>%
select(year:day, dest, arr_delay, prop_delay)
工作流:脚本
image.png编辑器用来修改脚本,不要在控制台输入。使用组合键Ctrl+Shift+N创建新脚本。
当退出RStudio 时,它会自动保存编辑器中的内容,并在重新打开时自动加载编辑器中的内容。
尽管如此,我们还是应该定时保存脚本,并做好备份。
Ctrl+Enter。这组快捷键会在控制台中执行当前的R 语句
一次性运行整个脚本:Ctrl+Shift+S