大数据分析(三):使用R读取CSV数据
CSV数据
逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。
CSV也是一种常用的数据格式,其特点是纯文本,读取和存储简单。目前很多BI系统或者大数据平台也支持直接对接CSV文件。比如Hadoop Hive平台默认的数据存储格式就是CSV。
在R中读取和保存CSV文件非常简单,不需要像读取EXCEL文件那样下载其他的package,因为R本身就支持CSV文件的读取。依然以学生信息数据为例,
CSV数据因为CSV文件为纯文本格式,所以可以方便的用记事本进行编辑,数据分隔符默认为逗号(EXCEL的打开可就没有这么方便咯,有探索精神的童鞋可以用记事本编辑下EXCEL试试_)。
直接在R环境中输入如下命令:
> stu_data <- read.csv(file="download/stu.csv", header=T)
上述命令中的file参数表示csv文件的路径,header参数表示是否将csv文件的第一行作为列名,header参数默认是T(true)。如果没有错误提示则表示读取成功,然后可以用class(stu_data)来查看stu_data的数据类型:
> class(stu_data)
也可以用head(stu_data)来查看stu_data中的数据内容:
> head(stu_data)
R中查看CSV数据
以上结果为header=T时,第一行数据会被作为列名,而不是作为实际的数据。如果header=F时,那结果会是下面的样子:
header=F时的数据大家可以看上面两幅图中的第一行的数据,就明白header参数设置的意义了。
至此,使用R语言读取CSV中的数据就完成了。后续就可以利用R来处理这些数据了。
- 使用R也可以非常方便的将数据保存为CSV文件,命令为:
>write.csv(x=stu_data, file="stu_bak.csv", row.names=F, quote=F)
通过以上命令可以将数据写入csv文件,row.names设置是否将行号写入csv文件,quote设置是否在数据中加入引号。