学习小组DAY6笔记——shoan
2020-11-04 本文已影响0人
shoan078
R包
R包的加载
library(包)
require(包)
安装+加载
示例:
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
install.packages("dplyr")
library(dplyr)
数据来源:内置数据集iris的简化版
test <- iris[c(1:2,51:52,101:102),]
dplyr的五个基础函数
mutate(),新增列
image.pngselect(),按列筛选
- 按列号筛选
select(test,1)#筛选第一列
image.png
select(test,c(1,5))#筛选第一列与第五列
image.png
select(test,Sepal.Length)#筛选Sepal.Length这一列
- 按列名筛选
select(test, Petal.Length, Petal.Width)#筛选Petal.Length, Petal.Width两列
image.png
vars <- c("Petal.Length", "Petal.Width")
select(test, one_of(vars))#筛选Petal.Length, Petal.Width两列
image.png
filter()筛选行
filter(test, Species == "setosa")#筛选为setosa的行
image.png
filter(test, Species == "setosa"&Sepal.Length > 5 )#筛选setosa且sepal length>5的行
image.png
filter(test, Species %in% c("setosa","versicolor"))#筛选行为setosa以及versicolor的行
image.png
arrange(),按某1列或某几列对整个表格进行排序
arrange(test, Sepal.Length)#默认从小到大排序
image.png
arrange(test, desc(Sepal.Length))#用desc从大到小
image.png
.summarise():汇总
对数据进行汇总操作,结合group_by使用实用性强
summarise(test, mean(Sepal.Length), sd(Sepal.Length))# 计算Sepal.Length的平均值和标准差
image.png
# 先按照Species分组,计算每组Sepal.Length的平均值和标准差
group_by(test, Species)
image.png
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))
image.png