生信星球培训第八十七期

2020-11-04DAY6-添添-学习R包

2020-11-04  本文已影响0人  徐添添

1、安装和加载R包

1) 配置Rstudio的下载镜像
2) 安装:install.packages(“包”)或者 BiocManager::install(“包”)

取决于你要安装的包存在于CRAN网站还是Biocductor,可以谷歌搜到。

3)加载:library(包)或者require(包)

以dplyr为例】
dplyrinstall.packages("dplyr")
library(dplyr)

2、学习dplyr五个基础函数

示例数据直接使用内置数据集iris的简化版:test <- iris[c(1:2,51:52,101:102),]
注意,井号开头的是代码运行记录。可以和自己的运行结果做对比

image.png
1)mutate():新增列

mutate(test, new = Sepal.Length * Sepal.Width):在表格最后新增一个叫“new“的列= Sepal.Length * Sepal.Width(这两列的数值相乘)

image.png
2)select():按列筛选

①按列号筛选:
select(test,1):选出第一列
select(test,c(1,5)):选出第一和第五列
②按列名筛选:
select(test, Petal.Length, Petal.Width):选出“Petal.Length”列和“Petal.Width”列
vars <- c("Petal.Length", "Petal.Width") select(test, one_of(vars)):同上

3)filter():筛选行

filter(test, Species == "setosa"):选出“Specis”列下行名为“setosa”的行
filter(test, Species == "setosa"&Sepal.Length > 5 ):选出选出“Specis“”列下,行名为“setosa”且“Sepal.Length”列 > 5的行
filter(test, Species %in% c("setosa","versicolor")):选出“Species ”列下行名为"setosa"或"versicolor"的行

4)arrange():按某1列或某几列对整个表格进行排序

arrange(test, Sepal.Length):将Sepal.Length列按从小到大排序
arrange(test, desc(Sepal.Length)):将Sepal.Length列按从大到小排序

5)summarise():对数据进行汇总操作,结合group_by使用实用性强

summarise(test, mean(Sepal.Length), sd(Sepal.Length)):计算Sepal.Length的平均值和标准差
group_by(test, Species)
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))
:先按照Species分组,然后计算每组Sepal.Length的平均值和标准差

3、dplyr两个实用技能

1)管道操作:%>%(cmd/ctr + shift + M)

test %>%
group_by(Species) %>%
summarise(mean(Sepal.Length), sd(Sepal.Length))
表示一直在操作test这个变量,不用变量来回转换
不用管道操作就需要写成:
group_by(test, Species)
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))

2)count统计某列的unique值

’count(test,Species)`:计算“Spcies”列下行名相同的行各有几行。


image.png

4、dplyr处理关系数据

即将2个表进行连接,注意:不要引入factor

Factor就是因子,它属于一种比较特殊的数据类型,通常会给初学者带来一些不必要的烦扰,所以说我们没有把它作为一个必修的内容放在课程里面,而是先让大家避开他,如果安装的是4.0以上版本的R语言,就说你是新安装的话,就不用去管Strong at factor等于false是什么意思,因为他已经被做为了一个默认的设置,但如果是4.0以下的版本以前的版本,那么这句代码就是非常有用的,Options开头代表这是一句设置,意思就是在生成数据框,也就是我们之前所说的那个表格的时候,不要把字符串变成因子。

options(stringsAsFactors = F)
test1 <- data.frame(x = c('b','e','f','x'), z = c("A","B","C",'D'), stringsAsFactors = F)
test2 <- data.frame(x = c('a','b','c','d','e','f'), y = c(1,2,3,4,5,6), stringsAsFactors = F)

image.png
1)inner_join:内联取交集
image.png

用x内联:把表1和表2中相同的x取出来,再取出相应的y和z

2)left_join:左联
image.png

在表2中找出表1x对应的所有y
在表1中找出表2x对应的左右z

3)full_join:全联
image.png
4)semi_join:半连接,返回能够与y表匹配的x表所有记录
image.png
5)anti_join:反连接,返回无法与y表匹配的x表的所记录
image.png
6)简单合并

在相当于base包里的cbind()函数和rbind()函数;
注意,bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数


image.png
上一篇下一篇

猜你喜欢

热点阅读