2020-11-04DAY6-添添-学习R包

2020-11-04 本文已影响0人徐添添

1、安装和加载R包

1) 配置Rstudio的下载镜像

2) 安装：`install.packages(“包”)`或者 `BiocManager::install(“包”)`

取决于你要安装的包存在于CRAN网站还是Biocductor，可以谷歌搜到。

3）加载：`library(包)`或者`require(包)`

【以dplyr为例】
dplyrinstall.packages("dplyr")
library(dplyr)

2、学习dplyr五个基础函数

示例数据直接使用内置数据集iris的简化版:test <- iris[c(1:2,51:52,101:102),]
注意，井号开头的是代码运行记录。可以和自己的运行结果做对比

image.png

1）`mutate()`:新增列

mutate(test, new = Sepal.Length * Sepal.Width):在表格最后新增一个叫“new“的列= Sepal.Length * Sepal.Width（这两列的数值相乘）

image.png

2）`select()`：按列筛选

①按列号筛选：
select(test,1)：选出第一列
select(test,c(1,5)):选出第一和第五列
②按列名筛选：
select(test, Petal.Length, Petal.Width):选出“Petal.Length”列和“Petal.Width”列
vars <- c("Petal.Length", "Petal.Width") select(test, one_of(vars))：同上

3）`filter()`:筛选行

filter(test, Species == "setosa"):选出“Specis”列下行名为“setosa”的行
filter(test, Species == "setosa"&Sepal.Length > 5 ):选出选出“Specis“”列下，行名为“setosa”且“Sepal.Length”列 > 5的行
filter(test, Species %in% c("setosa","versicolor")):选出“Species ”列下行名为"setosa"或"versicolor"的行

4）`arrange()`：按某1列或某几列对整个表格进行排序

①arrange(test, Sepal.Length)：将Sepal.Length列按从小到大排序
②arrange(test, desc(Sepal.Length))：将Sepal.Length列按从大到小排序

5）`summarise()`：对数据进行汇总操作,结合group_by使用实用性强

summarise(test, mean(Sepal.Length), sd(Sepal.Length)):计算Sepal.Length的平均值和标准差
group_by(test, Species)
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))
:先按照Species分组，然后计算每组Sepal.Length的平均值和标准差

3、dplyr两个实用技能

1）管道操作：`%>%`(cmd/ctr + shift + M)

test %>%
group_by(Species) %>%
summarise(mean(Sepal.Length), sd(Sepal.Length))
表示一直在操作test这个变量，不用变量来回转换
不用管道操作就需要写成：
group_by(test, Species)
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))

2）count统计某列的unique值

’count(test,Species)`:计算“Spcies”列下行名相同的行各有几行。

image.png

4、dplyr处理关系数据

即将2个表进行连接，注意：不要引入factor

Factor就是因子，它属于一种比较特殊的数据类型，通常会给初学者带来一些不必要的烦扰，所以说我们没有把它作为一个必修的内容放在课程里面，而是先让大家避开他，如果安装的是4.0以上版本的R语言，就说你是新安装的话，就不用去管Strong at factor等于false是什么意思，因为他已经被做为了一个默认的设置，但如果是4.0以下的版本以前的版本，那么这句代码就是非常有用的，Options开头代表这是一句设置，意思就是在生成数据框，也就是我们之前所说的那个表格的时候，不要把字符串变成因子。

options(stringsAsFactors = F)
test1 <- data.frame(x = c('b','e','f','x'), z = c("A","B","C",'D'), stringsAsFactors = F)
test2 <- data.frame(x = c('a','b','c','d','e','f'), y = c(1,2,3,4,5,6), stringsAsFactors = F)

image.png

1)`inner_join`:内联取交集

image.png

用x内联：把表1和表2中相同的x取出来，再取出相应的y和z

2)`left_join`：左联

image.png

在表2中找出表1x对应的所有y
在表1中找出表2x对应的左右z

3)`full_join`：全联

image.png

4)`semi_join`：半连接，返回能够与y表匹配的x表所有记录

image.png

5)`anti_join`：反连接，返回无法与y表匹配的x表的所记录

image.png

6)简单合并

在相当于base包里的cbind()函数和rbind()函数;
注意，bind_rows()函数需要两个表格列数相同，而bind_cols()函数则需要两个数据框有相同的行数

image.png

2020-11-04DAY6-添添-学习R包

1、安装和加载R包

1) 配置Rstudio的下载镜像

2) 安装：`install.packages(“包”)`或者 `BiocManager::install(“包”)`

3）加载：`library(包)`或者`require(包)`

2、学习dplyr五个基础函数

1）`mutate()`:新增列

2）`select()`：按列筛选

3）`filter()`:筛选行

4）`arrange()`：按某1列或某几列对整个表格进行排序

5）`summarise()`：对数据进行汇总操作,结合group_by使用实用性强

3、dplyr两个实用技能

1）管道操作：`%>%`(cmd/ctr + shift + M)

2）count统计某列的unique值

4、dplyr处理关系数据

1)`inner_join`:内联取交集

2)`left_join`：左联

3)`full_join`：全联

4)`semi_join`：半连接，返回能够与y表匹配的x表所有记录

5)`anti_join`：反连接，返回无法与y表匹配的x表的所记录

6)简单合并

猜你喜欢

热点阅读

2020-11-04DAY6-添添-学习R包

1、安装和加载R包

1) 配置Rstudio的下载镜像

2) 安装：install.packages(“包”)或者 BiocManager::install(“包”)

3）加载：library(包)或者require(包)

2、学习dplyr五个基础函数

1）mutate():新增列

2）select()：按列筛选

3）filter():筛选行

4）arrange()：按某1列或某几列对整个表格进行排序

5）summarise()：对数据进行汇总操作,结合group_by使用实用性强

3、dplyr两个实用技能

1）管道操作：%>%(cmd/ctr + shift + M)

2）count统计某列的unique值

4、dplyr处理关系数据

1)inner_join:内联取交集

2)left_join：左联

3)full_join：全联

4)semi_join：半连接，返回能够与y表匹配的x表所有记录

5)anti_join：反连接，返回无法与y表匹配的x表的所记录

6)简单合并

猜你喜欢

热点阅读

2) 安装：`install.packages(“包”)`或者 `BiocManager::install(“包”)`

3）加载：`library(包)`或者`require(包)`

1）`mutate()`:新增列

2）`select()`：按列筛选

3）`filter()`:筛选行

4）`arrange()`：按某1列或某几列对整个表格进行排序

5）`summarise()`：对数据进行汇总操作,结合group_by使用实用性强

1）管道操作：`%>%`(cmd/ctr + shift + M)

1)`inner_join`:内联取交集

2)`left_join`：左联

3)`full_join`：全联

4)`semi_join`：半连接，返回能够与y表匹配的x表所有记录

5)`anti_join`：反连接，返回无法与y表匹配的x表的所记录