格式、类型与编码(一)
日拱一卒|数据挖掘003
一、文件格式
无论是通过API结构访问数据,还是以文件形式下载,还是利用查询接口来访问数据库。要想把这些数据分享给其他人,我们都需要创建自己的数据文件。因此掌握好各种数据文件并熟知各自的优缺点显得很重要。
广义上,计算机系统中存在两种文件类型:文本文件和二进制文件。但本质上,所有的文件都是二进制。但是,如果文件中的字节都以纯粹的字符形式保存(例如字母、数字、或是换行、回车、制表符这样的控制字符),那么我们就可以说这个文件是文本格式。相比之下,二进制文件包含的字节则是由大部分非人类可读的字符组成的。
1.文件的打开与读取
文本文件可以通过一种称为文本编辑器的程序读取和写入。如果成功读取了里面的内容,那么这个文件很可能就是一个文本文件。但如果内容看起来是乱码,那么它可能就是一个二进制文件。
二进制文件只能通过特殊的应用程序打开或编辑,而不是文本编辑器。例如Excel文件用Excel电子表格程序才能打开和读取。
2.常见的文本文件格式
对于文本文件类型,常见的有:
- 分隔格式(结构化数据)
- JSON格式(半结构化数据)
- HTML格式(非结构化数据)
(1)分隔格式
分隔文件在数据分享和传输中使用得非常广泛。分隔文件就是文本格式文件,数据属性(列)和数据实例(行)由统一的符号分隔。我们把分隔用的字符称为分隔符,最为常见的分隔符是制表符和逗号。这两种方案分别出现在制表符分隔值(TSV)和逗号分隔值(CSV)中。有时,分隔文件也被称为记录式文件,因为文件中的每一行都代表了一条记录。
如何封闭错误数据
一般来说,逗号分隔符对一般值都有效,但遇到含有逗号作为千位分隔符的数值时就没有办法了。此时,可以采用双引号来对数据进行封闭。
字符转义
如果数据本身含有引号
“light “Carolina” blue”
此时,需要用转义符,即反斜线\处理
“light \“Carolina\” blue”