11-21-1文件读取

2021-08-10  本文已影响0人  阿里丁丁

一、R语言读取CSV

读取csv文件,并将该数据框命名为test:test=read.csv("ex3.csv")
读取txt文件:test=read.table()
识别:class(test)


文件名是带着引号的,存在于电脑上的。而变量名只是r语言数据

二、将数据框导出,成为表格文件

把test这个数据框导出csv格式:write.csv(test,file="excample.csv")
导出text格式:write.table(test,file="excample.test")

三、Rdata数据格式

概念:R语言特有的数据存储格式,保存的是变量而不是表格文件,所以不涉及赋值
保存:save(test, file="excample.Rdata")
加载:load("excample.Rdata")

四、练习题

练习1.读取ex1.txt 第一行是列名,法1:数据框删除行,修改列名
法②header=T
ex1=read.table("ex1.txt", header=T)


image.png

练习2.读取ex2_B cell receptor signaling pathway.csv


练习2
原图
修改后TCGA矩阵

练习3:报错,原因:默认参数和表格冲突,GEO官网下载的,66行之前都是解释信息(每一列是什么,分组信息)

#1.读取ex1.txt   第一行是列名,法1:数据框删除行,修改列名
#法②header=T
ex1=read.table("ex1.txt",
               header=T)

#2.读取ex2_B cell receptor signaling pathway.csv
#问题:①分隔符-为间隔自动变成了.   ②行名没有被正确识别
ex2=read.csv("ex2_B cell receptor signaling pathway.csv",
             row.names = 1,
             check.names = F)

#3.读取GSE32575_series_matrix.txt,赋值给gse。
gse=read.table("GSE32575_series_matrix.txt", 
               comment.char = "!",
               header=T,
               row.names=1)

#4.描述gse的属性
dim(gse)
rownames(gse)
colnames(gse)
#5.将gse导出为新的txt和csv文件。
write.table(gse, file="zz.txt")
write.csv(gse, file="zz.csv")


#6.将gse保存为Rdata并加载。
save(gse, file="zz.Rdata")
load("zz.Rdata")

五、课后练习4-1:

#1.读取complete_set.txt(已保存在工作目录)
正解:x=read.table("complete_set.txt", header=T)   
错解:x=read.table("complete_set.txt")   
改行名:colnames(x)=x[1, ]   
x=x[-1,]
view(x)发现没什么问题
str(x)发现表格里的元素全变成了字符串,
因为数据框单独拿出来一列必须是向量,两种不同数据类型导致其中一种自动改变
# 2.查看有多少行、多少列
dim(x)
# 3.获取行名和列名
colnames(x)
rownames(x)
# 4.导出为csv格式
write.csv(x,file = "complete20210810.csv") 
# 5.保存为Rdata 
save(x,file = "complete20210810.Rdata")
# 6.加载class.Rdata,查看数据类型
load("class.Rdata")
class(y)
class(y[1,1])
#办法二
str(y)
attributes(y)
#高阶数据读取指南https://www.jianshu.com/p/4ea320c0dcc6

进阶使用rio包读取

k = import("GSE32575_series_matrix.txt",
           skip = 65)
k2 = import_list("xesj.xls")

export(k , file = "a.csv")```
上一篇下一篇

猜你喜欢

热点阅读