学习小组Day6笔记--彦凯
2021-02-28 本文已影响0人
前方道阻且长
一、安装和加载R包
二、dplyr五个基础函数(dplyr包主要用于数据清洗和整理,主要功能有:行选择、列选择、统计汇总、窗口函数、数据框交集等)
1.mutate()
,新增列
2.select()
,按列筛选
3.filter()
筛选行
4.arrange()
,按某1列或某几列对整个表格进行排序#默认从小到大排序
5.summarise()
:汇总
5.1summarise(test, mean( ), sd( ))
计算Sepal.Length的平均值和标准差
5.2group_by(test, Species)
指按照Species分组,结合使用实用性强
三、dplyr两个实用技能
四、dplyr处理关系数据
1.內连inner_join
,取交集(例如inner_join(test1, test2, by = "x")
)
2.左连left_join
(例如left_join(test1, test2, by = 'x'
),test1表结构不变)
3.全连full_join
(并集)
4.半连接(例如semi_join(x = test1, y = test2, by = 'x'
),返回能够与y表匹配的x表)
5.反连接(例如anti_join(x = test2, y = test1, by = 'x'
),返回无法与y表匹配的x表)
6.简单合并——bind_rows()
函数需要两个表格列数相同,而bind_cols()
函数则需要两个数据框有相同的行数
