科赛网项目集-出行产品过去23个月的销量情况分析

2018-04-01  本文已影响0人  gyu357nwh91

1、基本信息

(1) 目标

使用科赛网中携程提供的的比赛数据集,深入了解产品需求量与产品特性、历史销量的关系。挖掘出影响需求量的关键因素,为后续的销量预测做准备。

(2) 数据来源

科赛网上携程提供的数据,2014-01-01到2015-11-30日的销量情况和产品概况,包含区域、评分、使用时间等多个维度。

(3) 数据可行性

数据经过了脱敏处理,与产品的实际情况有一定的差距,但不影响分析。

(4) 数据介绍

数据中共包含4000个产品,地区细分为642个,时间为2014-01-01到2015-11-30,跨度为23个月,订单渠道3个。

2、数据清洗

首先对数据集product_info进行描述:

product_info描述1 product_info描述2

从min行看出,只有product_id、district_id2、district_id4和eval没有缺失值。

对于字符串格式的列,是否含有缺失值,则是看是否等于-1,通过程序,upgradedate缺失值比较多。

对于地区id系列railway、airport、citycenter、railway2、airport2、citycenter2和upgradedate这几列,缺失值太多,而且没用,所以删除这些列。

再对product_quantity数据集进行描述:

product_quantity描述分析

最有可能有缺失值的就是price和product_date,经过分析,只有price有缺失值。

(1) 缺失值处理

lat和lon,经纬度的填充采用众数填充。

lat、lon缺失值处理

等级eval等的缺失值处理,因为等级都是固定的范围,所以采用均值处理。

eval等级的缺失值处理

votes、maxstock这两个数值型变量,数值范围不确定,可能受极端值影响,所以采取中位数填充。

votes、maxstock缺失值处理

对于像startdate、cooperatedate等字符串,有缺失值,也有异常值‘1753-01-01’,所以把缺失值和异常值都等于‘2014-01-01’,因为本次数据的产品使用时间的取值范围为2014-01-01至2015-11-30。

startdate缺失值处理 cooperatedate缺失值处理

对于price的缺失值,仔细观察了数据,发现price的缺失值都是因为人们预定了,成交量却是0,这个时候的平均售价应该为0,所以,缺失值都转换为0。

price缺失值处理

(2)数据整理

将所有的评分相加,形成总分eval_T。

评分相加程序

把product_quantity的product_date转换为关于年月的,这样就可以直接统计一个月的数据。

转换程序

计算出产品从开售到合作的时间'cha'。

求日期时间间隔程序

3、数据分析

核心结论

(1) 地区

3%的城市占据了34.9%的销量

20502、22746、22338、20604等几个二级地区的细分城市占据销量前20的45%

(2) 产品

4000个产品根据评分及运营时间划分为4类

销量跟评分的相关性较大

(3) 时间

每年的8月和10月为产品使用的高峰期

同比增长率在70%-80%左右呈稳定趋势

(4) 渠道

渠道1的销售量最高

渠道2的销售量第二,转化率最低

逐步分析

地区id1的销量分布

在最大的地区id1中,销量最高的是10201,占总销量的97.75%,该产品主要的经营区域为10201这个区域。

销量前20的地区

销量前20的地区,其中20502这个地区就占了3个小城市,其次是22746、22338、20604这三个地区,各占了2个小城市。

前20个城市的总销量占据总销量的34.9%。

产品销量为0

销量为0,可能是未开张。或者是被退订单。

产品销量前20 产品聚类分类 

根据聚类运算,把产品大致分为4类。

这4类产品特性:

       0:评分低,运营时间短,共2638个产品

       1:评分高,运营时间短,共1349个产品

       2:评分低,运营时间长,共1个产品

       3:评分高,运营时间长,共12个产品

不同产品特性的销量

有销量图可以看出,3类型的产品的销售量最低,人们更喜欢现代点的产品。

2015年的同比增长率

同比增长率在夏季会偏高,冬季会下降。侧面反映了人们的生活水平越来越高,越来越会享受生活,旅游的人越来越多。

 不同时间的销售量及环比

销量在每年的8月份和10月份都迅速增长。8月是学生的暑假,正是全家旅游的时候,10月份有国庆7天小长假。

5月份有青年节,销量也有小幅度上涨。平常时间的销量趋于线性增长。

渠道转化率

渠道1的销量是最高的,转化率是最高的。

渠道2的销量销量第二,但转化率是最低的。需要进一步探讨转化率低的原因。

4、结论分析

地区、时间、产品特性对于销量有很大的影响,但这些影响是主观的,可以分析出哪些是销量多的,却没有办法改变,只能在平台上加大宣传力度。

对于订单这个影响因素,可以通过进一步的数据,查看为什么会转化率低,进而做出措施。

上一篇 下一篇

猜你喜欢

热点阅读