学习小组Day6笔记--潘潘

2021-06-16 本文已影响0人三点水的番薯

学习R包

思维导图

思维导图.png

1. 安装和加载R包

安装：install.packages(“包”) OR BiocManager::install(“包”)。
加载：library(包) OR require(包)。

options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) #对应清华源
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #对应中科大源
install.packages("dplyr")
library(dplyr)

2. dplyr五个基础函数

dplyr包主要用于数据清洗和整理，主要功能包括：行选择、列选择、统计汇总、窗口函数，数据框交集等。
(1)新增列 mutate()。

mutate函数.png
(2)按列筛选select()。

one_of函数索引.png
①按照列号筛选
②按照列命筛选
(3)按行筛选filter()

filter提取列名.png
(4)按某一列或某几列对整个表格进行排序arrange()，默认是从小到大，加入desc()是从大到小。

arrange.png

(5)汇总summarise(),对数据进行汇总，结合group_by()。
group_by()这个函数用来定义分组变量，并没有直接改变数据的结构。
summarise()

n(）、n_distinct(x)#计数
mean(x)、median(x)#中间值
sd()、mad(x)、IQR(X)#离散程度
quartile()、min(x)、max(x)#极端值
first()、last()、nth()#位置

Summarise.png

3. dplyr两个实用技能

(1)管道操作%>%
管道命令：在linux中，管道命令|仅能处理经由前面一个命令传来的正确信息。也就是standard output的信息。

管道操作.png

(2)统计某列的unique值count()

4. dplyr处理数据关系

注意：不要引入factor
(1)取两个列表的交集inner_join

取交集.png
(2)左连left_join

左连.png
(3)全连full_join

全连.png
(4)返回能够与y表匹配的x表所有记录，半连接semi_join

semi_join.png
(5)返回无法与y表匹配的x表的所记录，反连接anti_join

anti_join.png
(6)简单合并：在相当于base包里的cbind()函数和rbind()函数;注意，bind_rows()函数需要两个表格列数相同，而bind_cols()函数则需要两个数据框有相同的行数。

test1 <- data.frame(x = c(1,2,3,4), y = c(10,20,30,40))
test1
##   x  y
## 1 1 10
## 2 2 20
## 3 3 30
## 4 4 40
test2 <- data.frame(x = c(5,6), y = c(50,60))
test2
##   x  y
## 1 5 50
## 2 6 60
test3 <- data.frame(z = c(100,200,300,400))
test3
##     z
## 1 100
## 2 200
## 3 300
## 4 400
bind_rows(test1, test2)
##   x  y
## 1 1 10
## 2 2 20
## 3 3 30
## 4 4 40
## 5 5 50
## 6 6 60
bind_cols(test1, test3)
##   x  y   z
## 1 1 10 100
## 2 2 20 200
## 3 3 30 300
## 4 4 40 400

代码来自于生信星球公众号