生物信息随笔

R从Excel文件读取数据(xls,xlsx,csv)

2021-06-30  本文已影响0人  南之绿桑

R从Excel文件读取数据(xls,xlsx,csv)
Reading Data From Excel Files into R

1. readxl package

install.packages("readxl")
library("readxl")
data<- read_excel("file.xls")
data <- read_excel("file.xlsx")

你可以根据file.choose()函数互动地选择一个文件。这很耗费时间,所以不推荐。

data <- read_excel(file.choose())

想象一下,如果你有多个工作表,你可以使用参数表。你需要用sheet的名字来指定它

data <- read_excel("my_file.xlsx", sheet = "sheetname")

您可以通过索引指定工作表

data <- read_excel("my_file.xlsx", sheet = 2)

有时在 Excel 工作表中包含缺失值,如果您在 R 中读取文件,它将显示为一个空白单元格,您可以在设置 na 参数时避免此类问题。

data <- read_excel("file.xlsx", na = "---")

如果你想读取多个excel文件,那么

library(readxl)
file.list <- list.files(pattern='*.xlsx')
df.list <- lapply(file.list, read_excel)

如果您还想将文件包含在子目录中,则

file.list <- list.files(pattern='*.xlsx', recursive = TRUE)

假设所有工作表都具有相同的列名,那么您可以使用 bind_rows,

library(dplyr)
df <- bind_rows(df.list, .id = "id")

2.xlsx 包

另一个包之一是 xlsx,基于 Java 的解决方案,用于在 R 中读取、写入和格式化 excel 文件。

install.packages("xlsx")
library("xlsx")

在 xlsx 包中主要有两个函数 read.xlsx() 和 read.xlsx2()
假设你有更大的文件,那么推荐使用 read.xlsx2() 函数,因为它比 read.xlsx 加载更快。

read.xlsx(file, sheetIndex, header=TRUE)
read.xlsx2(file, sheetIndex, header=TRUE)

file 指示文件路径
sheetIndex 表示要读取的工作表的索引
header 表示一个逻辑值。如果 header 为 TRUE,则第一行被视为列名。

library("xlsx")
data <- read.xlsx(file.choose(), 1)  # read first sheet
data <- read.xlsx(“file.xlsx”, 1)  # read first sheet
data <- read.xlsx(“file.xlsx”, sheetName=”Sheet1”)  # read the data contains in Sheet1

另一种导入数据的方法是从 Excel 复制并导入到 R
如果你使用的是windows系统,

data <- read.table(file = "clipboard", sep = "\t", header=TRUE)

MAC OSX system

data <- read.table(pipe("pbpaste"), sep="\t", header = TRUE)

这不是将数据导入 R 的更好方法

3.openxlsx包

openxlsx 包是 readxl 包的另一种替代方案

library(openxlsx)
read.xlsx(file_path)
read.xlsx(file_path, cols = 1:2, rows = 2:3)

4. XLConnect 包

XLConnect 是 xlsx 包的替代品

install.packages("XLConnect")
library(XLConnect)
data <- readWorksheetFromFile(file_path, sheet = "list-column",
                              startRow = 1, endRow = 10,
                              startCol = 1, endCol = 3)

如果你想阅读多个sheet,那么

load <- loadWorkbook(file_path)
data <- readWorksheet(load, sheet = "list-column",
                      startRow = 1, endRow = 10,
                      startCol = 1, endCol = 3)
data2 <- readWorksheet(load, sheet = "two-row-header",
                       startRow = 1, endRow = 10,
                       startCol = 1, endCol = 4)

有时读取excel文件会出现JAVA错误,你可以在R中设置java路径时避免这些问题
在 R 中打印 JAVA Home 的路径

Sys.getenv("JAVA_HOME")

设置JAVA的路径

Sys.setenv(JAVA_HOME = "path_to_jre_java_folder")

jre 文件夹包含在您计算机的 Java 文件夹中(程序文件)

上一篇下一篇

猜你喜欢

热点阅读