用R进行数据分析-05

2020-07-19 本文已影响0人吃一口小肉丸

20-矩阵与数组

一、矩阵的定义

矩阵（Matrix）是一个按照长方阵列排列的复数或实数集。向量是一维的，而矩阵是二维的，需要有行和列。

R中，矩阵是有维数的向量，但元素必须拥有相同的模式，此和向量一致。

例：x<-1:20

构造4行5列的矩阵：

m<-matrix(x,nrow=4,ncol=5) 或m<-matrix(1:20,4,5)

矩阵默认按列分配，即上述结果为：

1 5 9 13 17

2 6 10 14 18

3 7 11 15 19

4 8 12 16 20

matrix(1:20,4,byrow=T)此按行分布，即输出结果如下（若为F则按列分布）

1 2 3 4 5

6 7 8 9 10

11 12 13 14 15

16 17 18 19 20

其他章节内容请看我的个人微信公众号：全哥的学习生涯

二、数组

x<-1:20

①dim(x) <-c(2,2,5) x此时变为三维数组

②构造数组：

dim1 <-c(“A1”,”A2”)

dim2<-c(“B1”,”B2”,”B3”)

dim3<-c(“C1”,”C2”,”C3”,”C4”)

Z <-array(1:24,c(2,3,4),dimnames=list(dim1,dim2,dim3))

③Titanic为R中内置数据集的数组

三、矩阵的索引

构造矩阵m<-matrix(1:20,4,5,byrow=T)，即为

1 2 3 4 5

6 7 8 9 10

11 12 13 14 15

16 17 18 19 20

m[1,2] 即为2

m[1,c(2,3,4)] 第1行，2,3,4,列的数据

m[c(2:4),c(2,3)] 输出矩阵一个子集

m[2, ] 输出第2行数据

m[ ,2] 输出第2列数据

m[2] 默认输出第2行第1列的数，即6

m[-1,2] 即去除第1行，再取第2列

m+1,m*2 表示每个元素都乘以2

m+m 两个矩阵相加时，对应位置相加

若n <-matrix(1:20,5,4) ，则n+m会报错

colSums(m) 计算每一列的和

rowSums(m) 计算每一列的和

若构造m<-matrix(1:9,3,3) t<-matrix(2:10,3,3)

m*t 对应位置相乘，为矩阵内积

m %*% t 矩阵外积

diag(m) 返回对角线位置的值，即1,5,9

t(m) 将矩阵m转置，即行列互换

21-列表

列表即一些对象的有序集合，可以存储若干向量、矩阵、数据框，甚至其他列表的组合。

[if !supportLists]① [endif]在模式上与向量相似，都是一维数据集合

[if !supportLists]② [endif]向量只能存储一种数据类型，列表中的对象则可以是R中的任何数据结构，甚至列表本身。

R内置数据集state.center即列表数据

创建列表：list()

[if !supportLists]③ [endif]列表的访问

mlist<-list(a,b,c,d)

mlist[1] 即输出向量a

一次访问多个列表元素：mlist[c(1,4)]

也可用名称访问列表，即state.center[c(“x”,”y”)]

state.center$ x 访问列表的另一种形式

mlist[[1]]此时的输出结果变为元素本身类型

class(mlist[1]);class(mlist[[1])) 可测试元素类型

若给列表赋值，比如如上两个中括号才可以

Mlist[[5]]

<-删除列表元素

其他章节内容请看我的个人微信公众号：全哥的学习生涯

22-数据框

一、数据框的概念

数据框是一种表格式数据结构，数据集通常是由是由数据构成的一个矩形数组，行表观测，列表变量。（记录与字段/事例与属性）

数据框实际上是一个列表，列表中的元素是向量，这些向量构成数据框的列，每一列必须具有相同长度，所以数据框是矩形结构，且数据框的列必须命名。数据框并不是矩阵，因为矩阵要求元素属性必须相同。

即：

[if !supportLists]（1） [endif]数据框形状上很像矩阵

[if !supportLists]（2） [endif]数据框是比较规则的列表

[if !supportLists]（3） [endif]矩阵必须为同一数据类型

[if !supportLists]（4） [endif]数据框每一列必须为同一类型，每一列则不必

R内置数据集iris,mtcars,rock即为数据框

创建数据框：state<-data.frame(state.name,state.abb,state.region,state.x77)

二、数据框的访问

state[1] 输出第1列数据

state[c(2,4)] 输出2,4列数据

state[-c(2,4)] 去除2,4列数据后再输出其他数据

利用行和列的名字也可以取出对应的行列

state[ ,”state.abb”]

plot(women$height,women$weight) 输出散点图

lm(weight ~height,data=women) 线性回归

attach(mtcars) 直接加载数据框的内容，之后直接敲列名即可，不用加$

rownames(mtcars)

colnames(mtcars) 取行名与列名

with(mtcars,{mgg}) 取mtcars中的mgg列

其他章节内容请看我的个人微信公众号：全哥的学习生涯

23-因子

R中的变量可以分为：名义型变量（相互间独立，无顺序差别）、有序型变量（相互间有联系，但又并非连续型数值）、连续型变量

在R中连续型变量和有序型变量统称为因子，factor，这些分类变量的可能值称为一个水平level，例如good,better,best都称为一个level，由这些水平值构成的向量就称为因子（整个集合才称为因子），mtcars$cyl即为一个因子

因子的最大作用是进行数据分类，计算频率与频数

因子的应用：计算频数、独立性检验、相关性检验、方差分析、主成分分析、因子分析等等

table(mtcars$cyl) 可用于频数统计，因子即cyl，而因子的level为4,6,8

f <- factor(c(“red”,”yellow”,”green”)) 即因子类型的数据

plot(factor(mtcars$cyl)) 输出条形图

注意：向量输出散点图，而因子输出条形图

state.division、state.region为因子类型的数据

其他章节内容请看我的个人微信公众号：全哥的学习生涯

用R进行数据分析-05

20-矩阵与数组

21-列表

22-数据框

23-因子

猜你喜欢

热点阅读