学习小组Day6笔记--潘潘
2021-06-16 本文已影响0人
三点水的番薯
学习R包
思维导图
data:image/s3,"s3://crabby-images/6ed24/6ed24926ed4e1a986ad36f823b635c57b739bce6" alt=""
1. 安装和加载R包
安装:install.packages(“包”)
OR BiocManager::install(“包”)
。
加载:library(包)
OR require(包)
。
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) #对应清华源
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #对应中科大源
install.packages("dplyr")
library(dplyr)
2. dplyr五个基础函数
dplyr包主要用于数据清洗和整理,主要功能包括:行选择、列选择、统计汇总、窗口函数,数据框交集等。
(1)新增列 mutate()
。
data:image/s3,"s3://crabby-images/2e164/2e1641aea7224c1b08d00a1f6d96efaa7aab7a35" alt=""
(2)按列筛选
select()
。data:image/s3,"s3://crabby-images/e488e/e488ed5f38826289d60b942d083706f722d03d8f" alt=""
①按照列号筛选
②按照列命筛选
(3)按行筛选
filter()
data:image/s3,"s3://crabby-images/e6afa/e6afaca03a9fde6741d777ef584b4eb3d1107de4" alt=""
(4)按某一列或某几列对整个表格进行排序
arrange()
,默认是从小到大,加入desc()
是从大到小。data:image/s3,"s3://crabby-images/4cf7c/4cf7ca8ce4cb64159c0313aa5e96f96456c7a21a" alt=""
(5)汇总summarise()
,对数据进行汇总,结合group_by()
。
group_by()
这个函数用来定义分组变量,并没有直接改变数据的结构。
summarise()
n()、n_distinct(x)#计数
mean(x)、median(x)#中间值
sd()、mad(x)、IQR(X)#离散程度
quartile()、min(x)、max(x)#极端值
first()、last()、nth()#位置
data:image/s3,"s3://crabby-images/22aa2/22aa2226daefe3825fb435fce5c1f60d371f9143" alt=""
3. dplyr两个实用技能
(1)管道操作%>%
管道命令:在linux中,管道命令|
仅能处理经由前面一个命令传来的正确信息。也就是standard output的信息。
data:image/s3,"s3://crabby-images/94c40/94c401fcbdf8449d68a37f72dc6ace8d375e0a35" alt=""
(2)统计某列的unique值count()
4. dplyr处理数据关系
注意:不要引入factor
(1)取两个列表的交集inner_join
data:image/s3,"s3://crabby-images/e84a7/e84a7e0a85103ca6fc8ad66f54514e6fc16e2e42" alt=""
(2)左连
left_join
data:image/s3,"s3://crabby-images/7106f/7106fd00b99684b077740062b91815c7800c974b" alt=""
(3)全连
full_join
data:image/s3,"s3://crabby-images/586c4/586c4c4a3fd49a36cb6e95dd6939a5bca675a95e" alt=""
(4)返回能够与y表匹配的x表所有记录,半连接
semi_join
data:image/s3,"s3://crabby-images/afce3/afce3deb0bcd6cb172abfc00793cab18d184efb7" alt=""
(5)返回无法与y表匹配的x表的所记录,反连接
anti_join
data:image/s3,"s3://crabby-images/27f79/27f795e3eb348b8a6a8390a0adf75f28949bf7d7" alt=""
(6)简单合并:在相当于base包里的cbind()函数和rbind()函数;注意,bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数。
test1 <- data.frame(x = c(1,2,3,4), y = c(10,20,30,40))
test1
## x y
## 1 1 10
## 2 2 20
## 3 3 30
## 4 4 40
test2 <- data.frame(x = c(5,6), y = c(50,60))
test2
## x y
## 1 5 50
## 2 6 60
test3 <- data.frame(z = c(100,200,300,400))
test3
## z
## 1 100
## 2 200
## 3 300
## 4 400
bind_rows(test1, test2)
## x y
## 1 1 10
## 2 2 20
## 3 3 30
## 4 4 40
## 5 5 50
## 6 6 60
bind_cols(test1, test3)
## x y z
## 1 1 10 100
## 2 2 20 200
## 3 3 30 300
## 4 4 40 400
代码来自于生信星球公众号