第二章:创建数据集_《R语言实战》笔记
2018-07-22 本文已影响29人
芒果芭乐
- 对象:指可以赋值给变量的任何事物(常量、函数、图形等)
- 模式(数据类型):对象的模式描述了此对象是如何存储的——数值型、字符型、逻辑型复数型和原生型
数据的输入
R提供了适用范围广泛的数据导入工具
使用键盘输入数据
edit()函数会自动调用一个允许手动输入数据的文本编辑器,步骤:
1、创建一个空的数据框/矩阵
2、针对这个数据对象,调用文本编辑器
mydata=data.frame(age=numeric(0),gender=character(0),weight=numeric(0))
mydata=edit(mydata)

从带分隔符的文本文件导入数据
read.table()函数:mydataframe=read.table(file,options)
重要的option
header 第一行是否包含了变量名,逻辑变量
seq 设定数组的分隔符。可以通过seq=" "进行设定
na.strings 可选的用于表示缺失值的字符向量,na.strings=c("-9","?")在读取数据的时候转换成NA
skip 读取数据前跳过行的数目
read.table()在读取时,会默认把字符变量转化为因子,可以通过colClasses选项对每一列指定一个列,或者设置stringsAsFactors=FALSE进行更改
导入Excel数据
可以先将excel表输出为逗号分隔文件在,再用read.table进行读取。
也可以用xlsx包直接导入Excel工作表
最简单格式:read.xlsx(file,n) n为要导入的工作表序号1
其他可以导入的数据
XML:XML包
直接从网页抓取数据
SPSS数据:foreign包中的read.spss(),Hmisc包中的spss.get()
SAS数据
...........
处理数据对象的实用函数

