《R语言实战》学习笔记---Chapter4(1) 基础数据管理
2023-08-08 本文已影响0人
RSP小白之路
第3章是基础画图,我从接触R开始就是学习使用ggplot2绘图,基础绘图的知识知之甚少。
萝卜青菜各有所爱,感兴趣的可以找我,我有电子版的书,且乐于分享给你,你自己捡感兴趣的看就好。
直接开始看第4章吧。
1. 一个例子
后面的函数操作都是在这个数据集上进行的,所以需要先把这些代码在RStudio中运行,产生所需要的数据框。
manager <- c(1, 2, 3, 4, 5)
date <- c("10/24/08", "10/28/08", "10/1/08", "10/12/08", "5/1/09")
country <- c("US", "US", "UK", "UK", "UK")
gender <- c("M", "F", "F", "M", "F")
age <- c(32, 45, 25, 39, 99)
q1 <- c(5, 3, 3, 3, 2)
q2 <- c(4, 5, 5, 3, 2)
q3 <- c(5, 2, 5, 4, 1)
q4 <- c(5, 5, 5, NA, 2)
q5 <- c(5, 5, 2, NA, 1)
leadership <- data.frame(manager, date, country, gender, age,
q1, q2, q3, q4, q5, stringsAsFactors=FALSE)
print(leadership )
表单示例结果
2. 创建新变量
变量名 <- 表达式
算数运算符
运算符 | 描述 |
---|---|
+ | 加 |
- | 减 |
* | 乘 |
/ | 除 |
^或** | 求幂 |
x%%y | 求余(x mod y),5%%2结果为1 |
x%/%y | 整数除法。5%/%2结果为2 |
书中例子:
mydata<-data.frame(x1 = c(2, 2, 6, 4),
x2 = c(3, 4, 2, 8))
mydata$sumx <- mydata$x1 + mydata$x2
mydata$meanx <- (mydata$x1 + mydata$x2)/2
print(mydata)
打印结果
3. 变量重编码
将一个连续型变量修改为一组类别值;
将误编码的值替换为正确值;
基于一组分数线创建一个表示及格/不及格的变量。
算数运算符
运算符 | 描述 |
---|---|
< | 小于 |
<= | 小于或等于 |
> | 大于 |
>= | 大于或等于 |
== | 严格等于 |
!= | 不等于 |
!x | 非x |
x 竖杠 y | x或y |
x&y | x和y |
isTRUE(x) | 测试x是否为TRUE |
- 将一个连续型变量修改为一组类别值
将leadership 数据集中经理人的连续型年龄变量age重编码为类别型变量agecat (Young 、 Middle Aged 、 Elder ) 。 首先, 必须将99岁的年龄值重编码为缺失值,。
leadership$age[leadership$age == 99] <- NA
之后,对年龄进行重编码为类别值,通过子集选取语句配合条件判断语句进行。语句variable[condition] <- expression
将仅在condition
的值为TRUE
时执行赋值。
leadership <- within(leadership,{
agecat <- NA
agecat[age > 75] <- "Elder"
agecat[age >= 55 & age <= 75] <- "Middle Aged"
agecat[age < 55] <- "Young" })
print(leadership)
打印结果