RR语言知识干货

R语言与生信应用14-R语法-R文件操作2

2019-05-01  本文已影响72人  BioSi

R文件操作2

读取数据

R中有很多函数可以读取数据

写入文件

R中有很多功能类似的函数将数据写入文件

使用read.table函数读取数据

read.table函数是最长用的读取数据的函数。它有几个非常重要的参数:

file 文件的名字或者链接
header 逻辑值表示文件是否有表头
sep 分隔符,指定列分隔符是什么
colClasses 字符串向量表示数据集中每列的类
nrows 数据集的行数
comment.char 字符串表示注释
skip 忽略开始的多少行
stringsAsFactors 逻辑值,设置字符串变量是否用因子结构储存

对于中小型数据集,使用read.table函数的默认参数即可

data<-read.table("foo.txt")

使用read.table函数读取大数据集

对于大型数据集,首先大致估计一下需要使用多少内存来储存数据集,如果数据所需要的内存大于计算机的物理内存,那就需要使用其他方式处理数据。

initial<-read.table("datatable.txt",nrows=100)
classes<-sapply(initial,class)
tabAll<-read.table("datatable.txt",colClasses=classes)

了解一些操作系统

使用R处理大数据集时,需要了解一些操作系统的情况。

计算内存使用

一个1,500,000行和120列的数值型数据框占用内存的计算:
1,500,000 × 120 × 8 bytes/numeric
= 1440000000 bytes
= 1440000000 / 2^{20} bytes/MB
= 1,373.29 MB
= 1.34 GB

课程分享
生信技能树全球公益巡讲
https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g
B站公益74小时生信工程师教学视频合辑
https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw
招学徒:
https://mp.weixin.qq.com/s/KgbilzXnFjbKKunuw7NVfw

上一篇 下一篇

猜你喜欢

热点阅读