R语言对excel数据的简单分析
1.首先在R里open file命令里打开目标文件。
2 .在R语言脚本文件里用代码安装rjava,xlsxjars和openxlsx(xlsx)包,rjava包的安装需要依赖java的环境jre,所以在运行R语言前,需要在电脑上安装Java.
install.packages("rJava")
install.packages("xlsxjars")
install.packages("openxlsx")(或者install.packages("xlsx")这个只针对小量的数据)
library("rJava")
library("xlsxjars")
library("openxlsx")
library(stringr)
> readfilePath<- "C:/朝阳医院2016年销售数据.xlsx"
>exceldata<-read.xlsx(readfilePath,"Sheet1")
> exceldata
旧列名 新列名
1购药时间 time
2社保卡号 cardno
3商品编码 drugId
4商品名称 drugName
5销售数量 saleNumber
6应收金额 virtualmoney
View(exceldata)
如下是详细代码:
3 因为时间里可能有缺失值,!is.na()去掉缺失值,通过str_split_fixed去掉后面的字符串,因为字符串与之前的日期通过空格连接,所以通过” ”将它们断开。View数据就成了如下这样。
4 数据框按照日期及社保卡排序,然后去除掉社保卡在一天重复使用的情况。从而计算出总消费次数5394次。
5 计算出消费天数
注:endtime<-kpi1$time[row(kpi1)]这里用的row函数,就将所有日期全部显示出来了。
endTime <- kpi1$time[nrow(kpi1)]nrow只是显示出最后一行的日期
6.1.计算出月平均消费次数。计算出每月消费金额以及客单价。
7. 做消费曲线
这样一个简单的分析就完成了。