生信星球培训第八十期

生信星球学习小组第80期 Day6笔记--ZJUSKY

2020-09-19  本文已影响0人  ZJUSKY

R包的学习

设置镜像

在tools-options中是可以更改CRAN的镜像的,但是没法更改Bioconductor。(有时CRAN中没有收录的包可以在Bioconductor中尝试下载)
在R的配置文件中进行修改即可。

file.edit('~/.Rprofile')

然后再输入

options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) #对应清华源
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #对应中科大源

保存退出即可。

options()$repos      #查看CRAN的镜像
options()$BioC_mirror   #查看Bioconductor的镜像

安装包

一般先尝试在CRAN中下载包。

install.packages("包的名字")

如果没有这个包可以尝试在Bioconductor中下载。

BiocManager::install(“包”)

加载包

library(包)
require(包)

安装好包之后一定要加载才可以使用。

以下以dplyr为例简单介绍R包

dplyr

出处:AI入门学习
dplyr包主要用于数据清洗和整理,主要功能有:行选择、列选择、统计汇总、窗口函数、数据框交集等,是非常高效、友好的数据处理包.

安装、加载dplyr

install.packages("dplyr")
library(dplyr)

示例所用数据为内置iris的简化版。

Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

test <- iris[c(1:2,51:52,101:102),]

dplyr的5个基本函数

1.新增列,mutate()

增加一列,命名为new,输出结果为Sepal.Length * Sepal.Width。


2.按列筛选,select()

选择第二列,第1列和第3列,Petal.width这列。


3. 按行筛选,filter()

4.按列的数值大小排序,arrange()

5.汇总,summarise()

上一篇下一篇

猜你喜欢

热点阅读