生信星球培训第五十六期

Day6-冯致远

2020-05-08  本文已影响0人  冯致远_9c26

学R包:

1. R包是啥?是多个函数的集合。Biocductor上有各种生信分析的R包。

2. Biocductor是啥?是一个免费,开源和开放式开发软件项目。

3. 首先配置好CRAN和Biocductor的镜像,加快下载速度

4. 安装方式:

CRAN:install.packages(“包”)
Biocductor:BiocManager::install(“包”)

以dplyr为例,共5个基础函数:

1. mutate():新增列

2. select():按列筛选

按列号筛选:(数字)
按列名筛选:需要使用one_of函数

3. filter():按行筛选

4. arrange():按某1列/几列进行排序

默认为从小到大,+des后变从大到小

5. summarise():汇总,比如先分组,再计算组内均值

dplyr实用技巧:

1. 管道操作 %>% (cmd/ctr + shift + M)

2. count统计某列的unique值

dplyr处理关系数据,就是将2个表连接:

1. 内连:inner_join:取交集

2. 左连:left_join:以左集为标准,右集对应

3. 全连:full_join:全列出来,但默认从上到下先交集后无交集

4. 半连接:semi_join:能够与右集匹配的左集的所有记录

5. 反连接:anti_join:无法与右集匹配的左集的所有记录

6. 简单合并:

bind_rows():需要两个表格列数相同
bind_cols():需要两个数据框有相同的行数
上一篇下一篇

猜你喜欢

热点阅读