R语言学习--data.table-fread函数
2020-03-04 本文已影响0人
虾里巴人
参考:https://cran.r-project.org/web/packages/data.table/data.table.pdf
描述
"freda" 用于常规分隔文件;即每行具有相同列数的文件。之后还可以在每个列中指定第二个分隔符(sep2)。这样的列将被读取为list,其中每个单元格本身就是一个向量。
用法
fread(input, file, text, cmd, sep="auto", sep2="auto", dec=".", quote="\"",
nrows=Inf, header="auto",
na.strings=getOption("datatable.na.strings","NA"), # due to change to ""; see NEWS
stringsAsFactors=FALSE, verbose=getOption("datatable.verbose", FALSE),
skip="__auto__", select=NULL, drop=NULL, colClasses=NULL,
integer64=getOption("datatable.integer64", "integer64"),
col.names,
check.names=FALSE, encoding="unknown",
strip.white=TRUE, fill=FALSE, blank.lines.skip=FALSE,
key=NULL, index=NULL,
showProgress=getOption("datatable.showProgress", interactive()),
data.table=getOption("datatable.fread.datatable", TRUE),
nThread=getDTthreads(verbose),
logical01=getOption("datatable.logical01", FALSE), # due to change to TRUE; see NEWS
keepLeadingZeros = getOption("datatable.keepLeadingZeros", FALSE),
yaml=FALSE, autostart=NA, tmpdir=tempdir()
)
参数较多, 但在实际的应用中很多并不需要,以下,讲解常用参数意义,及如何设置参数。
input : 一串代表所导入文件路径的字符,可以与paste连用,例,input =paste("../Data/input/",xxx,sep"")
提前设置路径可直接写 文件名。
sep : 列之间的分隔符,默认为最常用的分隔符,通常csv文件分隔符为“,”,使用 NULL或者 “” 默认为咩有分隔符。
sep :列内的分隔符?
header :导入的第一行数据是否作为列名(表头),是为TRUE,否为FALSE(FALSE默认v1-v?)
na.strings : 数集中缺失的类型用什么来表示,默认情况下,将读为NA,plink中分型数据中通常设置 na.strings = "--" ,bulpf90中数据文件中的缺失设置为 NA。
StringsFactors : 表示读入的数据,对于字符类型,是否自动处理为因子类型。为了方便后边模型处理,这里设置为因子类型。
data.table : TRUE 设置返回为data.table ,FALSE设置返回为 data.frame。