生信星球培训第九十四期

学习小组Day6笔记——思

2020-12-31  本文已影响0人  cecilia_7f32

安装R包

镜像设置

options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") 

安装

install.packages(“包”) 或者BiocManager::install(“包”)

加载

library(包) 或者require(包)

dplyr的五个基础函数

先导入示例数据集

test <- iris[c(1:2,51:52,101:102),]

新增列 mutate()

mutate(test, new = Sepal.Length * Sepal.Width)

按列筛选 select()

select(数据框,1) 筛选第一列
select(数据框,c(1,5)) 筛选第一和第五列
select(数据框,列名) 按照列名筛选

筛选多个列时

vars <- c("Petal.Length", "Petal.Width")
select(test, one_of(vars))

按行筛选 filter()

filter(test, Species == "setosa")
filter(test, Species == "setosa"&Sepal.Length > 5 )
filter(test, Species %in% c("setosa","versicolor"))

排序 arrange()

按照指定列排序,默认从小到大

arrange(test, Sepal.Length)

用desc从大到小排序

arrange(test, desc(Sepal.Length))

汇总 summarise()

计算Sepal.Length的平均值和标准差

summarise(test, mean(Sepal.Length), sd(Sepal.Length))

结合group_by()分组运算,先按照Species分组,计算每组Sepal.Length的平均值和标准差

summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))

管道操作 %>% (cmd/ctr + shift + M)

符号%>%,这是管道操作,其意思是将%>%左边的对象传递给右边的函数,作为第一个选项的设置

test %>% group_by(Species) %>% summarise(mean(Sepal.Length), sd(Sepal.Length))

统计某列unique值 count()

count(test,Species)

处理关系数据

将2个表进行连接,注意:不要引入factor
(options(stringsAsFactors = F))

上一篇下一篇

猜你喜欢

热点阅读