Kaggle-共享单车项目分析
2018-08-28 本文已影响0人
一只努力的小白
项目链接:Bike Sharing Demand | Kaggle
思路:1.认识数据
2.特征工程
3.建模并预测
首先,是一个关于自行车租赁预测的题目,Kaggle提供的训练数据是一个月前19点的使用情况,需要预测20天之后的使用情况,数据从Kaggle中下载。
数据共有12列,12个属性的意义如下:
![](https://img.haomeiwen.com/i13706777/ceeb2e8254402299.png)
读入训练数据
![](https://img.haomeiwen.com/i13706777/692b333577a3564b.png)
![](https://img.haomeiwen.com/i13706777/63a710a8cec6d0c4.png)
12列数据,并且数据没有缺失值。
![](https://img.haomeiwen.com/i13706777/1bd3449e9c5164b8.png)
测试数据一共有9列,没有缺失值。
为了方便后面做特征工程,将训练数据和测试数据拼接起来。
数据中给出的datetime是例如2011-01-01 00:00:00这样的格式的,为了分析数据,需要将时间分割出月、日、几时
![](https://img.haomeiwen.com/i13706777/0ff930e1cd7f47b2.png)
![](https://img.haomeiwen.com/i13706777/ae698694baf63eb9.png)
![](https://img.haomeiwen.com/i13706777/2ae489da827437c1.png)
根据小时用量可以将时段分为5个:0~7,7~10,10~15,15~20,20~24
![](https://img.haomeiwen.com/i13706777/8204bfd9ce181036.png)
![](https://img.haomeiwen.com/i13706777/afeacc733c967bd9.png)
![](https://img.haomeiwen.com/i13706777/a03a51ec72560511.png)
按季节查看骑行情况
![](https://img.haomeiwen.com/i13706777/a5479f86ba4c79bb.png)
每个季节每天的使用情况
![](https://img.haomeiwen.com/i13706777/08a05047cf6045cd.png)
![](https://img.haomeiwen.com/i13706777/c37453cd6d8662e5.png)
天气与骑行情况
![](https://img.haomeiwen.com/i13706777/be7fc04556f98885.png)
随着天气恶劣,自行车用量也在逐渐减少,天气是一个很好的特征。
![](https://img.haomeiwen.com/i13706777/4d3b329957644104.png)
确实40度的使用情况,41度那么热,可是用量却非常大,可能数据有些异常
各特征相关系数
![](https://img.haomeiwen.com/i13706777/04c0fbe6722504ae.png)
![](https://img.haomeiwen.com/i13706777/9443b5bbf6bbd902.png)
由上图看出,注册用户和非注册用户的自行车使用量相差挺多的,非注册用户的相关系数是0
.69,而注册用户的相关系数为0.97
![](https://img.haomeiwen.com/i13706777/803c721bf250d755.png)
![](https://img.haomeiwen.com/i13706777/79f261944289b249.png)
剔除离群点
![](https://img.haomeiwen.com/i13706777/c5229f26f7f86ae2.png)
这是一个回归问题,如果目标值服从正态分布比较好,原数据不符合正态分布,需要进行处理
![](https://img.haomeiwen.com/i13706777/1742b50d75fdac2a.png)
![](https://img.haomeiwen.com/i13706777/92c527c91ce60965.png)
![](https://img.haomeiwen.com/i13706777/38007577f1cecea1.png)
虽然不是标准的正态分布,但比原来的数据看上去好一些。
![](https://img.haomeiwen.com/i13706777/da1d1df5f97632f8.png)
![](https://img.haomeiwen.com/i13706777/b85b10c76b0f57cc.png)