Day6-冯致远
学R包:
1. R包是啥?是多个函数的集合。Biocductor上有各种生信分析的R包。
2. Biocductor是啥?是一个免费,开源和开放式开发软件项目。
3. 首先配置好CRAN和Biocductor的镜像,加快下载速度
4. 安装方式:
CRAN:install.packages(“包”)
Biocductor:BiocManager::install(“包”)
以dplyr为例,共5个基础函数:
1. mutate():新增列
2. select():按列筛选
按列号筛选:(数字)
按列名筛选:需要使用one_of函数
3. filter():按行筛选
4. arrange():按某1列/几列进行排序
默认为从小到大,+des后变从大到小
5. summarise():汇总,比如先分组,再计算组内均值
dplyr实用技巧:
1. 管道操作 %>% (cmd/ctr + shift + M)
2. count统计某列的unique值
dplyr处理关系数据,就是将2个表连接:
1. 内连:inner_join:取交集
2. 左连:left_join:以左集为标准,右集对应
3. 全连:full_join:全列出来,但默认从上到下先交集后无交集
4. 半连接:semi_join:能够与右集匹配的左集的所有记录
5. 反连接:anti_join:无法与右集匹配的左集的所有记录
6. 简单合并:
bind_rows():需要两个表格列数相同
bind_cols():需要两个数据框有相同的行数