生信星球学习小组第80期 Day6笔记--ZJUSKY
2020-09-19 本文已影响0人
ZJUSKY
R包的学习
设置镜像
在tools-options中是可以更改CRAN的镜像的,但是没法更改Bioconductor。(有时CRAN中没有收录的包可以在Bioconductor中尝试下载)
在R的配置文件中进行修改即可。
file.edit('~/.Rprofile')
然后再输入
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) #对应清华源
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #对应中科大源
保存退出即可。
options()$repos #查看CRAN的镜像
options()$BioC_mirror #查看Bioconductor的镜像
安装包
一般先尝试在CRAN中下载包。
install.packages("包的名字")
如果没有这个包可以尝试在Bioconductor中下载。
BiocManager::install(“包”)
加载包
library(包)
require(包)
安装好包之后一定要加载才可以使用。
以下以dplyr为例简单介绍R包
dplyr
出处:AI入门学习
dplyr包主要用于数据清洗和整理,主要功能有:行选择、列选择、统计汇总、窗口函数、数据框交集等,是非常高效、友好的数据处理包.
安装、加载dplyr
install.packages("dplyr")
library(dplyr)
示例所用数据为内置iris的简化版。
Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
test <- iris[c(1:2,51:52,101:102),]
dplyr的5个基本函数
1.新增列,mutate()
增加一列,命名为new,输出结果为Sepal.Length * Sepal.Width。
2.按列筛选,select()
选择第二列,第1列和第3列,Petal.width这列。