生信技能树-数据挖掘week1 1/4

2021-01-09 本文已影响0人 Caster_xiao

感谢生信技能树小洁老师

新建一个项目

在开始一项新的工作时，在R studio中新建R project（.Rproj），指定Directory名称以及工作目录（所有将要用到的脚本以及文件，请放在工作目录下）
新建脚本R script
打开脚本时如果出现乱码，File-Reopen with encoding-UTF8

脚本运行方式

逐行运行，快捷键ctrl+enter
脚本中#为添加注释，R自动忽略#右侧内容

数据类型与向量

数据类型

数值型numeric：1、2
字符型character：“a”、“12”
逻辑型logical：TRUE、FALSE、NA （请严格区分大小写）

判断数据类型

class()

比较运算的结果为逻辑值

<,>,<=,>=,==,!=
多个逻辑条件的连接可以用 &与，|或，非！
！4>5 TRUE

数据类型的判断与转化

> is.numeric(4)
[1]TRUE
>as.numeric("4") 
[1]4

数据结构

1、向量vector
2、数据框data.frame
3、矩阵matrix
4、列表list

向量生成

#(1)用 c() 结合到一起
c(2,5,6,2,9) 
c("a","f","md","b")
#(2)连续的数字用冒号“:” 
1:5
#(3)有重复的用rep(),有规律的序列用seq(),随机数用rnorm
rep("gene",times=3)  
seq(from=3,to=21,by=3)
rnorm(n=3)
#(4)通过组合,产生更为复杂的向量。
paste0(rep("gene",times=3),1:3)
[1] "gene1" "gene2" "gene3"
> paste(rep("gene"),1:3)
[1] "gene 1" "gene 2" "gene 3"
> paste("gene",1:3,sep="")
[1] "gene1" "gene2" "gene3"

数据类型转化的优先顺序

字符型>数值型>逻辑型

> c(1,TRUE,NA)
[1]  1  1 NA
> c(1,2,"a")
[1] "1" "2" "a"

对单个向量进行操作

赋值：=,<- 均可

#初级统计
max(x) #最大值
min(x) #最小值
mean(x) #均值
median(x) #中位数
var(x) #方差
sd(x) #标准差
sum(x) #总和

重点区分

x%in%y x的元素是否在y中

==和%in%

对两个向量进行操作

#交集、并集、差集
intersect(x,y)
union(x,y)
setdiff(x,y)
setdiff(y,x)

循环补齐

当两个向量长度不同时，短的自动补齐长的

> x = c(1,3,5,6,2)
> y = c(3,2,5)
> x == y
[1] FALSE FALSE  TRUE FALSE  TRUE
Warning message:
In x == y : longer object length is not a multiple of shorter object length

向量取子集

#根据逻辑值取子集
x[x==10]
x[x<12]
x[x %in% c(9,13)]
# 根据位置取子集,中括号内必须是一个向量
x[4]
x[2:4]
x[c(1,5)]
x[-4]
x[-(2:4)]

向量匹配排序

match函数

y[match(x,y)] # y按照x的顺序重新排序