R语言学习笔记

《R语言实战》学习笔记---Chapter4(1) 基础数据管理

2023-08-08  本文已影响0人  RSP小白之路

第3章是基础画图,我从接触R开始就是学习使用ggplot2绘图,基础绘图的知识知之甚少。
萝卜青菜各有所爱,感兴趣的可以找我,我有电子版的书,且乐于分享给你,你自己捡感兴趣的看就好。
直接开始看第4章吧。


1. 一个例子

后面的函数操作都是在这个数据集上进行的,所以需要先把这些代码在RStudio中运行,产生所需要的数据框。

manager <- c(1, 2, 3, 4, 5)
date <- c("10/24/08", "10/28/08", "10/1/08", "10/12/08", "5/1/09")
country <- c("US", "US", "UK", "UK", "UK")
gender <- c("M", "F", "F", "M", "F")
age <- c(32, 45, 25, 39, 99)
q1 <- c(5, 3, 3, 3, 2)
q2 <- c(4, 5, 5, 3, 2)
q3 <- c(5, 2, 5, 4, 1)
q4 <- c(5, 5, 5, NA, 2)
q5 <- c(5, 5, 2, NA, 1)
leadership <- data.frame(manager, date, country, gender, age,
q1, q2, q3, q4, q5, stringsAsFactors=FALSE)
print(leadership )
表单示例结果

2. 创建新变量

变量名 <- 表达式

算数运算符

运算符 描述
+
-
*
/
^或** 求幂
x%%y 求余(x mod y),5%%2结果为1
x%/%y 整数除法。5%/%2结果为2

书中例子:

mydata<-data.frame(x1 = c(2, 2, 6, 4),
x2 = c(3, 4, 2, 8))
mydata$sumx <- mydata$x1 + mydata$x2
mydata$meanx <- (mydata$x1 + mydata$x2)/2
print(mydata)
打印结果

3. 变量重编码

将一个连续型变量修改为一组类别值;
将误编码的值替换为正确值;
基于一组分数线创建一个表示及格/不及格的变量。

算数运算符

运算符 描述
< 小于
<= 小于或等于
> 大于
>= 大于或等于
== 严格等于
!= 不等于
!x 非x
x 竖杠 y x或y
x&y x和y
isTRUE(x) 测试x是否为TRUE

将leadership 数据集中经理人的连续型年龄变量age重编码为类别型变量agecat (Young 、 Middle Aged 、 Elder ) 。 首先, 必须将99岁的年龄值重编码为缺失值,。

leadership$age[leadership$age == 99] <- NA

之后,对年龄进行重编码为类别值,通过子集选取语句配合条件判断语句进行。语句variable[condition] <- expression将仅在condition 的值为TRUE时执行赋值。

leadership <- within(leadership,{
agecat <- NA
agecat[age > 75] <- "Elder"
agecat[age >= 55 & age <= 75] <- "Middle Aged"
agecat[age < 55] <- "Young" })
print(leadership)
打印结果
上一篇下一篇

猜你喜欢

热点阅读