R语言与生信应用10-R语法-因子factor和缺失值
2019-04-27 本文已影响110人
BioSi
因子Factors
因子用来表示数据分组,可以有序或无序。因子可以视作带标签label的整型向量。
- 因子可通过模型函数
lm()
和glm()
创建 - 使用标签的因子分组比使用数据更直观,“Male”和“Female”分组比1和2分组更易于理解
> x <- factor(c("yes", "yes", "no", "yes", "no"))
> x
[1] yes yes no yes no
Levels: no yes
> table(x)
x
no yes
2 3
> unclass(x)
[1] 2 2 1 2 1
attr(,"levels")
[1] "no" "yes"
水平的先后顺序可以使用factor()
函数的levels
参数来指定。这在线性模型中很重要,因为第一个水平常被用来作为对照。
> x <- factor(c("yes", "yes", "no", "yes", "no"),
levels = c("yes", "no"))
> x
[1] yes yes no yes no
Levels: yes no
缺失值Missing Values
缺失值NA
和NaN
代表未定义的数学操作。
-
is.na()
函数用来测试R对象是否为NA
-
is.nan()
函数用来测试R对象是否为NaN
-
NA
值也有数据类型,整型NA
, 字符串characterNA
等等 -
NaN
值属于NA
值
> x <- c(1, 2, NA, 10, 3)
> is.na(x)
[1] FALSE FALSE TRUE FALSE FALSE
> is.nan(x)
[1] FALSE FALSE FALSE FALSE FALSE
> x <- c(1, 2, NaN, NA, 4)
> is.na(x)
[1] FALSE FALSE TRUE TRUE FALSE
> is.nan(x)
[1] FALSE FALSE TRUE FALSE FALSE
课程分享
生信技能树全球公益巡讲
(https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g)
B站公益74小时生信工程师教学视频合辑
(https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw)
招学徒:
(https://mp.weixin.qq.com/s/KgbilzXnFjbKKunuw7NVfw)