dplyr包

2019-01-17 本文已影响30人 apricoter

1.包和数据的安装

安装dplyr包

install.packages("dplyr")
library(dplyr)

安装hflights包，该软件包中的飞机航班数据将用于本文中dplyr包各个函数的演示

install.packages("hflights")
library(hflights)

通过以下代码，简单了解示例数据集hflights

class(hflights);dim(hflights)
head(hflights)

在利用dplyr包处理数据之前，需要将数据装载成dplyr包的一个特定对象类型（data frame tbl / tbl_df），也称作 tibble 类型，可以用 tbl_df函数将数据框类型的数据装载成 tibble 类型的数据对象

packageVersion("dplyr")
attach(hflights)
tbl_hflights<-tbl_df(hflights)
class(tbl_hflights)
tbl_hflights

输出结果如下：可以看到，将hflights转换成tbl_df类型后，R语言打印数据集tbl_hflights的数据时，仅打印了适合屏幕宽度的数据，屏幕显示不下的剩余两个变量的数据（CancellationCode , Diverted ）并没有打印出来，这使得屏幕上打印出来的数据可读性更强，也更美观。此外，还在每一列变量名称的下面显示了变量的类型。

2.数据记录筛选filter

filter() 返回行的子集,按照指定的条件筛选符合条件中逻辑判断要求的数据记录，类似于SQL语句中的where语句中的筛选条件，但不能筛选某些变量

# 选择2011年1月而且起飞时间为1400的所有数据记录
filter(tbl_hflights,Year == 2011, Month == 1, DepTime == 1400)
# '且'的关系除了"，"也可以用&符号表示，也就是列出的所有条件同时满足
filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime == 1400)

# 选择起飞时间在1400之前的航班
filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime <= 1400)

# '或'的关系用|符号表示。选择起飞时间为1400或者1430的航班,且UniqueCarrier为'AA'
filter(tbl_hflights,Year == 2011 & Month == 1 & (DepTime == 1400 | DepTime == 1430) & UniqueCarrier == 'AA')

3.变量筛选select

select()返回列的子集,filter()函数只能将指定条件的观测筛选出来，并不能筛选出只关心的变量，为了弥补这个缺陷，select函数可以通过指定列名选择指定的变量进行分析，而且比subset()函数更灵活，而且选择变量的同时也可以重新命名变量。
如果需要对数据集中的某些变量进行重命名的话，可直接使用rename()函数，语法如下：rename(tbl, newname = oldname,...)
如果剔除某些变量的话，只需在变量前加上负号“-”。
Dplyr包有下列辅助函数，用于在select()中选择变量：
starts_with("X"): 以 "X"开头的变量名
ends_with("X"): 以 "X"结束的变量名
contains("X"): 包含 "X"的变量名
matches("X"): 匹配正则表达式“x"的变量名
num_range("x", 1:5): 变量名为 x01, x02, x03, x04 and x05
one_of(x): 出现在字符向量x中的所有变量名
everything(): 选择所有变量，一般调整数据集中变量顺序时使用
在select()中直接使用列时不需要引用""，但使用上述辅助函数时必须引用""

# 选择指定的变量
select(tbl_hflights,Year,Month,DayofMonth,FlightNum,Distance)

# 用类似于生成数字序列的方式选择变量
# 选择Year开始一直到ArrTime结束的所有变量
select(tbl_hflights,Year:ArrTime)

# 也可以按照倒过来的顺序选择
select(tbl_hflights,ArrTime:Year)

# 除了选择变量，也可以删除指定的变量
select(tbl_hflights,-Year,-Month,-DayofMonth,-FlightNum,-Distance)

select(tbl_hflights,-(Year:ArrTime))

4.数据排序arrange

arrange根据一个或多个变量对行排序,默认为升序排列，也可以对列名加desc()进行降序排序。

#抽取数据
tbl_hflights1<-select(filter(tbl_hflights,Year == 2011 & Month == 1 & DepTime == 1400),Year:ArrTime,AirTime)
tbl_hflights1

# 将数据按照ArrTime升序排序
arrange(tbl_hflights1,ArrTime)

# 将数据先按照AirTime降序，再按照ArrTime升序排列
arrange(tbl_hflights1,desc(AirTime),ArrTime)

5.变量变换/重构mutate

mutate函数可以基于原始变量重新计算得到新的变量，应用指定的公式，派生新的数据列，或重写已经存在的数据列,在做数据分析预处理的时候经常会用到该功能。允许在同一次调用中使用新变量来创建下一个变量。例如：mutate(my_df, x = a + b, y = x + c)
同样可以进行数据扩展的还有transmute()函数，与mutate()函数不同的是，该函数扩展新变量的同时，将删除所有原始变量。
由ArrTime-DepTime得到航班的飞行所用时长，并存储在DurTime变量中,飞行所用时长（单位：分钟）的计算方式为：小时数*60+分钟数,同时将飞行的分钟数，换算成秒。优势在于可以在同一语句中对刚增加的列进行操作。

tbl_hflights2<-mutate(tbl_hflights1,
                      DurTime = (as.numeric(substr(ArrTime,1,2)) - as.numeric(substr(DepTime,1,2)))*60 + as.numeric(substr(ArrTime,3,4)) ,
                      Dur_Time1 = DurTime * 60)
tbl_hflights2

6.数据汇总summarize

summarize函数实现对数据的汇总，比如求和、计算平均值等。
对tbl对象执行聚合运算，还可以结合group_by()函数实现分组聚合，单独对每个分组进行聚合运算。
min()：返回最小值
max()：返回最大值
mean()：返回均值
sum()：返回总和
sd()：返回标准差
var()：方差
diff(range())：x值的范围
median()：返回中位数
quantile(x, p)：x的第P个分位数
IQR()：返回四分位极差
n()：返回观测个数
n_distinct()：统计数据集中无重复值的数量
first()：返回第一个观测
last()：返回最后一个观测
nth()：返回n个观测

# 计算航班平均飞行时长
summarize(tbl_hflights2,avg_dur = mean(DurTime),sum_air = sum(AirTime))

7.数据分组group_by

group_by函数实现对数据进行分组，结合summarize函数，可以对分组数据进行汇总统计。然后可以使用ungroup函数，移除tbl对象的分组状态

# 按照航空公司分组进行汇总
summarise(group_by(tbl_hflights, UniqueCarrier), 
          m = mean(AirTime,na.rm = TRUE), 
          sd = sd(AirTime,na.rm = TRUE), 
          cnt = n(), 
          me = median(AirTime,na.rm = TRUE))

8.多步操作连接符%>%管道函数

是最常用的一个操作符，就是把左侧准备的数据或表达式，传递给右侧的函数调用或表达式进行运行，可以连续操作就像一个链条一样。
使用时把数据名作为开头，然后依次对此数据进行多步操作。
这种运算符的编写方式使得编程者可以按数据处理时的思路写代码, 一步一步操作不断叠加，在程序上就可以非常清晰的体现数据处理的步骤与背后的逻辑。

# 对数据进行分布处理：分组-汇总-排序-打印
tbl_hflights %>%
  group_by(UniqueCarrier) %>%
  summarize(m = mean(AirTime,na.rm = TRUE), sd = sd(AirTime,na.rm = TRUE)) %>%
  arrange(desc(m),sd) %>%
  head(10)

9.挑选随机样本sample_n, sample_frac

sample_n随机选出指定个数（样本容量）的样本数；sample_frac随机选出指定百分比（占整个数据集总体百分比）的样本数。

# 随机抽取10个样本
sample_n(tbl_hflights,10)

# 随机抽取10%的样本
tbl_hflights %>% 
  sample_frac(0.1) %>%
  select(Year:UniqueCarrier) %>%
  group_by(UniqueCarrier) %>%
  summarize(m = mean(ArrTime,na.rm = TRUE), cnt = n()) %>%
  arrange(desc(m))

10.

可以通过如下名称查看dplyr包中自带的参考资料

# 查看自带的参考资料
vignette(package = "dplyr")
vignette("introduction", package = "dplyr")

11.连接操作 join

inner_join#內连
left_join#左连
right_join#右连
full_join#全连
semi_join#返回能够与y表匹配的x表所有记录
anti_join#返回无法与y表匹配的x表的所有记录

df <- data.frame(x = c('a','b','c','a','b','e','d','f'), y = c(1,2,3,4,5,6,7,8))
df
df2 <- data.frame(x = c('a','b','c'), z = c('A','B','C'))
df2

#转换为tbl对象
df2tbl <- tbl_df(df)
df2tbl
df2tbl2 <- tbl_df(df2)
df2tbl2

inner_join(x = df2tbl, y = df2tbl2, by = 'x')

semi_join(x = df2tbl, y = df2tbl2, by = 'x')

anti_join(x = df2tbl, y = df2tbl2, by = 'x')

12.数据合并bind_rows/cols

在R基础包里有cbind()函数和rbind()函数实现按列的方向进行数据合并和按行的方向进行数据合并，而在dplyr包中也添加了类似功能的函数，它们是bind_cols()函数和bind_rows()函数。

mydf1 <- data.frame(x = c(1,2,3,4), y = c(10,20,30,40))
mydf1

mydf2 <- data.frame(x = c(5,6), y = c(50,60))
mydf2

mydf3 <- data.frame(z = c(100,200,300,400))
mydf3

#bind_rows()函数需要两个数据框或tbl对象有相同的列数
bind_rows(mydf1, mydf2)

#bind_cols()函数则需要两个数据框或tbl对象有相同的行数
bind_cols(mydf1, mydf3)

13.集合操作set

#取两个集合的交集
intersect(x,y, ...)
#取两个集合的并集，并进行去重
union(x,y, ...)
#取两个集合的并集，不去重
union_all(x,y, ...)
#取两个集合的差集，在x中不在y中
setdiff(x,y, ...)
#判断两个集合是否相等
setequal(x, y, ...)

14.连接数据库数据

如果需要获取MySQL数据库中的数据时，可以直接使用dplyr包中的src_mysql()函数，其功能类似于RMySQL包。src_mysql()函数语法如下：

src_mysql(dbname, host = NULL, port = 0L, user = "root", password = "",...)

通过以上方式连接MySQL数据库后，使用tbl()函数获取数据集，tbl()函数语法如下：

tbl(src,from = '')

其中src为src_mysql()函数对象，from为SQL语句