python数据分析Office实用小技能get

excel数据分析项目--母婴产品分析

2020-07-06  本文已影响0人  小花数据分析

1 数据情况

数据集来源
https://tianchi.aliyun.com/dataset/dataDetail?dataId=45

数据集为母婴商品信息。包括2个excel表,表1为母婴商品购买信息,表2为用户信息。

表1信息如下: image.png 表2信息如下: image.png

2 分析思路

3 数据预处理

对数据进行重复值(删除)、缺失值(删除、估算补全)、异常值(删除、估算补全),数据格式规范处理。
3.1 重复值
对用户编号重复值删除处理,选定用户编号列,删除重复项,扩展选定区域删除重复项(扩展选定区域可以删除相关的一整行记录)


image.png

3.2 缺失值
先通过筛选功能确定每列的缺失值,并处理(如用户编号列有缺失值的记录整行删除,购买数量的缺失值用0代替)。

再用选定当前数据利用定位查找,进一步确认空值的处理情况。 image.png 3.3 异常值
通过筛选功能确定每列的异常值并处理。表2用户信息中,性别列出现异常值,可能是由于购买商品时,婴儿尚未出生,性别为未知。统一用数字2代替。
3.4 数据格式规范
利用分列将购买日期和生日转换成日期格式
image.png

4 母婴数据分析

4.1 数据透视表分析各产品季度平均销量情况
备注:由于2012年与2015年都只有半年的销售额,所以对年度销售额求季度平均销量情况进行分析。


image.png 再对各商品年度销售额求季度平均销量情况,并图表呈现 image.png

结论一:2012-2015年间,商品28、商品50008168及商品50014815销售额位居前三

4.2 各商品在不同用户群体中的销售情况

4.2.1 vlookup函数关联母婴商品购买信息表和用户信息表,计算用户购买商品时的年龄(出生前用-1表示,其他用周岁表示),并筛选出无缺失信息用户信息

image.png image.png 4.2.2 数据透视表分析不同性别、不同年龄用户的商品总销售量情况 image.png image.png 结论二:在出生前到2周岁购买量高于其他年龄段,占总销售量的78%
结论三:男孩商品总购买量是女孩商品总购买量的1.75倍

4.2.3 细分各商品在不同性别用户群体的销售量情况并图表呈现

image.png image.png 结论四:男孩中商品50014815销量较高(38.75%),女孩中商品50008168销量较高(35.78%)

4.2.4 细分各商品在不同年龄用户群体的销售量情况,并图表呈现

image.png image.png 结论五:商品28在出生前到1岁这个年龄的销售量最高,随年龄增加销量递减
结论六:商品38在1-2周岁销量最高
结论七:商品50008168在出生前到2周岁销量较高,岁年龄递减
结论八:商品50014815出生前需求较大,1周岁时需求最大
结论九:商品50022520在婴儿出生前销售量最高,其他年龄段销售很少
结论十:商品122650008在各个年龄段需求皆较少
上一篇 下一篇

猜你喜欢

热点阅读