R从Excel文件读取数据(xls,xlsx,csv)
R从Excel文件读取数据(xls,xlsx,csv)
Reading Data From Excel Files into R
1. readxl package
install.packages("readxl")
library("readxl")
data<- read_excel("file.xls")
data <- read_excel("file.xlsx")
你可以根据file.choose()函数互动地选择一个文件。这很耗费时间,所以不推荐。
data <- read_excel(file.choose())
想象一下,如果你有多个工作表,你可以使用参数表。你需要用sheet的名字来指定它
data <- read_excel("my_file.xlsx", sheet = "sheetname")
您可以通过索引指定工作表
data <- read_excel("my_file.xlsx", sheet = 2)
有时在 Excel 工作表中包含缺失值,如果您在 R 中读取文件,它将显示为一个空白单元格,您可以在设置 na 参数时避免此类问题。
data <- read_excel("file.xlsx", na = "---")
如果你想读取多个excel文件,那么
library(readxl)
file.list <- list.files(pattern='*.xlsx')
df.list <- lapply(file.list, read_excel)
如果您还想将文件包含在子目录中,则
file.list <- list.files(pattern='*.xlsx', recursive = TRUE)
假设所有工作表都具有相同的列名,那么您可以使用 bind_rows,
library(dplyr)
df <- bind_rows(df.list, .id = "id")
2.xlsx 包
另一个包之一是 xlsx,基于 Java 的解决方案,用于在 R 中读取、写入和格式化 excel 文件。
install.packages("xlsx")
library("xlsx")
在 xlsx 包中主要有两个函数 read.xlsx() 和 read.xlsx2()
假设你有更大的文件,那么推荐使用 read.xlsx2() 函数,因为它比 read.xlsx 加载更快。
read.xlsx(file, sheetIndex, header=TRUE)
read.xlsx2(file, sheetIndex, header=TRUE)
file 指示文件路径
sheetIndex 表示要读取的工作表的索引
header 表示一个逻辑值。如果 header 为 TRUE,则第一行被视为列名。
library("xlsx")
data <- read.xlsx(file.choose(), 1) # read first sheet
data <- read.xlsx(“file.xlsx”, 1) # read first sheet
data <- read.xlsx(“file.xlsx”, sheetName=”Sheet1”) # read the data contains in Sheet1
另一种导入数据的方法是从 Excel 复制并导入到 R
如果你使用的是windows系统,
data <- read.table(file = "clipboard", sep = "\t", header=TRUE)
MAC OSX system
data <- read.table(pipe("pbpaste"), sep="\t", header = TRUE)
这不是将数据导入 R 的更好方法
3.openxlsx包
openxlsx 包是 readxl 包的另一种替代方案
library(openxlsx)
read.xlsx(file_path)
read.xlsx(file_path, cols = 1:2, rows = 2:3)
4. XLConnect 包
XLConnect 是 xlsx 包的替代品
install.packages("XLConnect")
library(XLConnect)
data <- readWorksheetFromFile(file_path, sheet = "list-column",
startRow = 1, endRow = 10,
startCol = 1, endCol = 3)
如果你想阅读多个sheet,那么
load <- loadWorkbook(file_path)
data <- readWorksheet(load, sheet = "list-column",
startRow = 1, endRow = 10,
startCol = 1, endCol = 3)
data2 <- readWorksheet(load, sheet = "two-row-header",
startRow = 1, endRow = 10,
startCol = 1, endCol = 4)
有时读取excel文件会出现JAVA错误,你可以在R中设置java路径时避免这些问题
在 R 中打印 JAVA Home 的路径
Sys.getenv("JAVA_HOME")
设置JAVA的路径
Sys.setenv(JAVA_HOME = "path_to_jre_java_folder")
jre 文件夹包含在您计算机的 Java 文件夹中(程序文件)