R语言对excel数据的简单分析
1.首先在R里open file命令里打开目标文件。
![](https://img.haomeiwen.com/i4579517/aad8d8a003fcbde4.png)
2 .在R语言脚本文件里用代码安装rjava,xlsxjars和openxlsx(xlsx)包,rjava包的安装需要依赖java的环境jre,所以在运行R语言前,需要在电脑上安装Java.
install.packages("rJava")
install.packages("xlsxjars")
install.packages("openxlsx")(或者install.packages("xlsx")这个只针对小量的数据)
library("rJava")
library("xlsxjars")
library("openxlsx")
library(stringr)
> readfilePath<- "C:/朝阳医院2016年销售数据.xlsx"
>exceldata<-read.xlsx(readfilePath,"Sheet1")
> exceldata
旧列名 新列名
1购药时间 time
2社保卡号 cardno
3商品编码 drugId
4商品名称 drugName
5销售数量 saleNumber
6应收金额 virtualmoney
View(exceldata)
![](https://img.haomeiwen.com/i4579517/7842b109db10d4d8.png)
如下是详细代码:
![](https://img.haomeiwen.com/i4579517/c11bfe9b675057ab.png)
![](https://img.haomeiwen.com/i4579517/907efc87edc4d351.png)
![](https://img.haomeiwen.com/i4579517/da25fe5244c7ef93.png)
3 因为时间里可能有缺失值,!is.na()去掉缺失值,通过str_split_fixed去掉后面的字符串,因为字符串与之前的日期通过空格连接,所以通过” ”将它们断开。View数据就成了如下这样。
![](https://img.haomeiwen.com/i4579517/be94f93adad6bd55.png)
4 数据框按照日期及社保卡排序,然后去除掉社保卡在一天重复使用的情况。从而计算出总消费次数5394次。
5 计算出消费天数
![](https://img.haomeiwen.com/i4579517/449a95f3381a1fe9.png)
注:endtime<-kpi1$time[row(kpi1)]这里用的row函数,就将所有日期全部显示出来了。
![](https://img.haomeiwen.com/i4579517/cfe1636b319a1c5e.png)
endTime <- kpi1$time[nrow(kpi1)]nrow只是显示出最后一行的日期
![](https://img.haomeiwen.com/i4579517/5859e907db4c12e0.png)
6.1.计算出月平均消费次数。计算出每月消费金额以及客单价。
7. 做消费曲线
![](https://img.haomeiwen.com/i4579517/0df5d01a83cd02e1.png)
这样一个简单的分析就完成了。