R数据科学（八）reader包数据导入

2018-11-17 本文已影响1人子鹿学生信

library(tidyverse)

读取文件：
read_csv() 读取逗号分隔文件、 read_csv2() 读取分号分隔文件、 read_tsv() 读取制表符分隔文件、 read_delim() 可以读取使用任意分隔符的文件。
read_fwf() 读取固定宽度的文件。既可以使用 fwf_widths() 函数按照宽度来设定域，也可
以使用 fwf_positions() 函数按照位置来设定域。
read_csv() 函数的第一个参数是最重要的，该参数是要读取的文件的路径：

有时文件开头会有好几行元数据。你可以使用 skip = n 来跳过前 n 行；或者使用
comment = "#" 来丢弃所有以 # 开头的行

数据没有列名称。可以使用 col_names = FALSE 来通知 read_csv() 不要将第一行作为列
标题，而是将各列依次标注为 X1 至 Xn：

"\n" 是非常便捷的快捷方式，用于添加新行。

na。它设定使用哪个值（或哪些值）来表示文件中的缺失值

# heights <- read_csv("data/heights.csv")
read_csv("a,b,c
1,2,3
4,5,6")

read_csv("The first line of metadata
The second line of metadata
x,y,z
1,2,3", skip = 2)

read_csv("# A comment I want to skip
x,y,z100
1,2,3", comment = "#")

read_csv("1,2,3\n4,5,6", col_names = FALSE)

read_csv("1,2,3\n4,5,6", col_names = c("x", "y", "z"))

read_csv("a,b,c\n1,2,.", na = ".")

read_csv函数与read.csv函数相比的优势是：
1.速度较快（约快 10 倍）
2.它们可以生成 tibble，并且不会将字符向量转换为因子，不使用行名称，也不会随意
改动列名称。
3.更易于重复使用。

8.2.2　练习
(1) 如果一个文件中的域是由“|”分隔的，那么应该使用哪个函数来读取这个文件？
(2) 除了 file、 skip 和 comment，还有哪些参数是 read_csv() 和 read_tsv() 这两个函数共有的？
(3) read_fwf() 函数中最重要的参数是什么？
(4) 有时 CSV 文件中的字符串会包含逗号。为了防止引发问题，需要用引号（如 " 或 '）
将逗号围起来。按照惯例， read_csv() 默认引号为 "，如果想要改变默认值，就要转而
使用 read_delim() 函数。要想将以下文本读入一个数据框，需要设定哪些参数？
"x,y\n1,'a,b'"
(5) 找出以下每个行内 CSV 文件中的错误。如果运行代码，会发生什么情况？
read_csv("a,b\n1,2,3\n4,5,6")
read_csv("a,b,c\n1,2\n1,2,3,4")
read_csv("a,b\n"1")
read_csv("a,b\n1,2\na,b")
read_csv("a;b\n1;3")

# (1)
# read_delim() 
# (2)
?read_csv
?read_tsv
# 参数col_names,col_types,locale,na,quoted_na,quote,等参数都一样
# (3)
?read_fwf
# 最重要的是分割符参数col_positions，告诉列从哪开始和结束
# (4)
x <- "x,y\n1,'a,b'"
read_delim(x, ",", quote = "'")
# read_csv也支持该参数
read_csv(x, quote = "'")

read_csv("a,b\n1,2,3\n4,5,6") # 列名只有两个，其中的元素被舍弃
read_csv("a,b,c\n1,2\n1,2,3,4") # 元素少了一个，用NA补全
read_csv("a,b\n\"1")
read_csv("a,b\n1,2\na,b")
read_csv("a;b\n1;3")

8.3　解析向量

parse_*() 函数族函数接受一个字符向量，并返回一个特定向量，如逻辑、整数或日期向量
也即指明输入的是何种类型的数据
na 参数设定了哪些字符串应该当作缺失值来处理

str(parse_logical(c("TRUE", "FALSE", "NA")))
str(parse_integer(c("1", "2", "3")))
str(parse_date(c("2010-01-01", "1979-10-14")))
parse_integer(c("1", "231", ".", "456"), na = ".")

parse_logical() 和 parse_integer() 函数分别解析逻辑值和整数。
parse_double() 是严格的数值型解析函数， parse_number() 则是灵活的数值型解析函数。
parse_character() 函数
parse_factor() 函数可以创建因子， R 使用这种数据结构来表示分类变量，该变量具有
固定数目的已知值。
parse_datetime()、 parse_date() 和 parse_time() 函数可以解析不同类型的日期和时间。

8.3.1　数值

parse_number() 可以忽略数值前后的非数值型字符。这个函数特别适合处理货币和百分比，也可以提取嵌在文本中的数值：

parse_number('$100')
parse_number('1,233,400')
# 也可以设置分组符号
parse_number(
"123.456.789",
locale = locale(grouping_mark = ".")
)

8.3.2　字符串

计算机将字符从编码为十六进制数存储在计算机中，这个示例中的编码方式称为 ASCII。 ASCII 可以非常好地表示英文字符

UTF-8为目前通用的字符编码方法，

# 十六进制数
charToRaw("Hadley")

x1 <- "El Ni\xf1o was particularly bad this year"
x2 <- "\x82\xb1\x82\xf1\x82\xc9\x82\xbf\x82\xcd"

# parse_character(x1)
# parse_character(x2) #编码方式不对，乱码
# encoding设置编码方式
parse_character(x2,locale = locale(encoding = "Shift-JIS"))
# guess_encoding函数可以猜测编码方式
guess_encoding(charToRaw(x2))

8.3.3　因子

R 使用因子表示取值范围是已知集合的分类变量

fruit <- c("apple", "banana")
parse_factor(c("apple", "banana", "bananana"))
parse_factor(c("apple", "banana", "bananana"), levels = fruit)

8.3.4　日期、日期时间与时间

parse_datetime() 期待的是符合 ISO 8601 标准的日期时间。 ISO 8601 是一种国际标准，
其中日期的各个部分按从大到小的顺序排列，即年、月、日、小时、分钟、秒

parse_datetime("2010-10-01T2010")

parse_date() 期待的是四位数的年份、一个 - 或 /、月、一个 - 或 /，然后是日

parse_date("2010-10-01")

parse_time() 期待的是小时、 :、分钟、可选的 : 和秒，以及一个可选的 a.m./p.m. 标识符

library(hms)
parse_time("01:10 am")
#> 01:10:00
parse_time("20:10:01")
#> 20:10:01
# 创建解析函数进行尝试解析
parse_date("01/02/15", "%m/%d/%y")
#> [1] "2015-01-02"
parse_date("01/02/15", "%d/%m/%y")
#> [1] "2015-02-01"
parse_date("01/02/15", "%y/%m/%d")
#> [1] "2001-02-15"

8.3.5　练习
(1) locale() 函数中最重要的参数是什么？
date and time formats: date_names, date_format, and time_format
time zone: tz
numbers: decimal_mark, grouping_mark
encoding: encoding

(2) 如果将 decimal_mark 和 grouping_mark 设为同一个字符，会发生什么情况？如果将 decimal_mark 设为 ,， grouping_mark 的默认值会发生什么变化？如果将 grouping_mark 设为 .，decimal_mark 的默认值会发生什么变化？
decimal_mark and grouping_mark must be different

(3) 我们没有讨论过 locale() 函数的 date_format 和 time_format 选项，它们的作用是什
么？构建一个示例，说明它们在何种情况下是有用的？

# 设置默认的时间和日期格式
locale()
parse_date("1 janvier 2015", "%d %B %Y", locale = locale("fr"))
#> [1] "2015-01-01"
parse_date("14 oct. 1979", "%d %b %Y", locale = locale("fr"))
#> [1] "1979-10-14"

(4) 如果你不是居住在美国，创建一个新的地区对象，并封装你最常读取的文件类型的相关
设置。

parse_date("02/01/2006") # 报错不能识别该格式
au_locale <- locale(date_format = "%d/%m/%Y") #设置新格式
parse_date("02/01/2006", locale = au_locale)

(5) read_csv() 和 read_csv2() 之间的区别是什么？
(6) 欧洲最常用的编码方式是什么？亚洲最常用的编码方式是什么？可以使用 google 找出
答案。Chinese: GB 2312, GBK, GB 18030
(7) 生成正确形式的字符串来解析以下日期和时间。

d1 <- "January 1, 2010"
parse_date(d1,'%B %d, %Y')
d2 <- "2015-Mar-07"
parse_date(d2,"%Y-%b-%d")
d3 <- "06-Jun-2017"
parse_date(d3, "%d-%b-%Y")
d4 <- c("August 19 (2015)", "July 1 (2015)")
parse_date(d4,"%B %d (%Y)")
d5 <- "12/30/14" # 2014年12月30日
parse_date(d5,"%m/%d/%y")
t1 <- "1705"
parse_time(t1, "%H%M")
t2 <- "11:15:10.12 PM"

8.4　解析文件

readr 如何自动猜出文件每列的数据类型。
如何修改默认设置。
策略一：根据前面的行猜测

guess_parser("2010-10-01") # 猜测
str(parse_guess("2010-10-01")) # 解析


challenge <- read_csv(readr_example("challenge.csv")) # 不能读入
problems(challenge) #整数后面有拖尾字符
# 增加猜测行数
challenge2 <- read_csv(
readr_example("challenge.csv"),
guess_max = 1001
)
# 将所有行按字符串读入
challenge2 <- read_csv(readr_example("challenge.csv"),
col_types = cols(.default = col_character())
)
# 然后用type_convert函数自动解析各列
type_convert(challenge2)

8.5　写入文件

write_csv() 和 write_tsv()
如果想要将 CSV 文件导为 Excel 文件，可以使用 write_excel_csv() 函数
这几个函数中最重要的参数是 x（要保存的数据框）和 path（保存文件的位置）。还可以使
用 na 参数设定如何写入缺失值，如果想要追加到现有的文件，需要设置 append 参数

haven 可以读取 SPSS、 Stata 和 SAS 文件；
• readxl 可以读取 Excel 文件（.xls 和 .xlsx 均可）；
• 配合专用的数据库后端程序（如 RMySQL、 RSQLite、 RPostgreSQL 等）， DBI 可以对相
应数据库进行 SQL 查询，并返回一个数据框。

阅读推荐：
生信技能树公益视频合辑：学习顺序是linux，r，软件安装，geo，小技巧，ngs组学！
B站链接：https://m.bilibili.com/space/338686099
YouTube链接：https://m.youtube.com/channel/UC67sImqK7V8tSWHMG8azIVA/playlists
生信工程师入门最佳指南：https://mp.weixin.qq.com/s/vaX4ttaLIa19MefD86WfUA

R数据科学（八）reader包数据导入

8.3　解析向量

8.3.1　数值

8.3.2　字符串

8.3.3　因子

8.3.4　日期、日期时间与时间

8.4　解析文件

8.5　写入文件

猜你喜欢

热点阅读

R数据科学（八）reader包数据导入

8.3 解析向量

8.3.1 数值

8.3.2 字符串

8.3.3 因子

8.3.4 日期、 日期时间与时间

8.4 解析文件

8.5 写入文件

猜你喜欢

热点阅读

8.3　解析向量

8.3.1　数值

8.3.2　字符串

8.3.3　因子

8.3.4　日期、日期时间与时间

8.4　解析文件

8.5　写入文件