数据-R语言-图表-决策-Linux-Python

R语言实战笔记(第二章 创建数据集)

2017-03-08  本文已影响0人  defineaset

按照个人要求的格式来创建含有研究信息的数据集,这是任何数据分析的第一步。在R中,这个任务包括以下两步:

数据集概念

数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量。

image.png

数据结构

image.png

向量

矩阵

矩阵是一个二维数组,只是每个元素都拥有相同的模式(数值型、字符型或逻辑型) 。可通过函数matrix创建矩阵。
矩阵下标

数组

数组(array)与矩阵类似,但是维度可以大于2。数组可通过array函数创建,形式如下:

myarray<-array(vector,dimensions,dimnames)

其中vector包含了数组中的数据, dimensions是一个数值型向量,给出了各个维度下标的最大值,而dimnames是可选的、各维度名称标签的列表。代码清单2-3给出了一个创建三维数值型数组的示例。

数据框

由于不同的列可以包含不同模式(数值型、字符型等)的数据,数据框的概念较矩阵来说更为一般。它与你通常在SAS、 SPSS和Stata中看到的数据集类似。数据框将是你在R中最常处理的数据结构。

因子

如你所见,变量可归结为名义型、有序型或连续型变量。名义型变量是没有顺序之分的类别变量。类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor) 。因子在R中非常重要,因为它决定了数据的分析方式以及如何进行视觉呈现。

列表

列表(list)是R的数据类型中最为复杂的一种。一般来说,列表就是一些对象(或成分,component)的有序集合。列表允许你整合若干(可能无关的)对象到单个对象名下。例如,某个列表中可能是若干向量、矩阵、数据框,甚至其他列表的组合。

数据输入

使用键盘输入数据

从带分隔符的文本文件导入数据

导入excel

导入XML数据

从网页抓取数据

导入SPSS数据

导入SAS数据

导入Stata数据

导入netCDF数据

导入HDF5 数据

访问数据库管理系统

通过Stat/Transfer导入数据

数据集标注

为了使结果更易解读,数据分析人员通常会对数据集进行标注。通常这种标注包括为变量名添加描述性的标签,以及为类别型变量中的编码添加值标签。例如,对于变量age,你可能想附加一个描述更详细的标签“ Age at hospitalization”(入院年龄) 。对于编码为1或2的性别变量gender,你可能想将其关联到标签“ male”和“ female”上。

变量标签

R处理变量标签的能力有限。一种解决方法是将变量标签作为变量名,然后通过位置下标来访问这个变量。

值标签

函数factor()可为类别型变量创建值标签。

处理数据对象的实用函数

上一篇 下一篇

猜你喜欢

热点阅读