python热爱者Python新世界码农的世界

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

2018-09-10  本文已影响20人  Python新世界
python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

这是个非常有趣的项目,分析淘宝上胸罩销售数据。是一个Python网络爬虫与数据分析的综合应用项目。

本项目步骤:

QQ图片20180808144134.jpg
性普遍的胸部大小范围!](http://upload-images.jianshu.io/upload_images/9305082-041763b8e882fbcd?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

1. 项目效果展示

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围! python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

图1:ABCD罩杯胸罩销售比例

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

图2:胸罩销售比例(罩杯和上胸围综合指标)

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

图3:胸罩销售比例(按颜色分析)31

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

图4:罩杯和下胸围分布直方图

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围! python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

图5:淘宝胸罩销售比例柱状图(按罩杯和上胸围统计)

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

2. 天猫胸罩销售数据分析

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围! python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围! python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

很明显,这些数据与JSON非常像,不过加了一些前缀以及其他信息,估计是要满足一些特殊需要。

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

图6:天猫评论数据

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

3.抓取天猫胸罩销售数据

既然对天猫胸罩的评论数据的来源已经非常清楚了,本节就抓取这些数据。在tmallbra.py脚本文件中有一个核心函数,用于抓取指定商品的某一页评论数据。

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

4. 抓取胸罩商品列表

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围! python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

4.将抓取的销售数据保存到SQLite数据库中

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围! python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

下面的代码会抓取商品搜索第一页的所有胸罩商品的评论数据,并将这些数据保存到SQLite数据库中。

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

5. 数据清洗

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围! python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

图7:保存到数据库中的胸罩销售数据

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围! python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

胸罩尺寸清洗的方式与胸罩颜色类似,大家可以自己通过SQL语句去完成。

清洗完的结果如图8所示。

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

图8:清洗后的数据

6. 用SQL语句分析胸罩(按罩杯尺寸)的销售比例

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围! python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围! python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

SQL语句不仅加入了销售比例,还加入了销售数量,并且按销量降序排列。

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围! python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围! python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

7. 用Pandas和Matplotlib分析对胸罩销售比例进行可视化分析

既然Python提供了这么好的Pandas和Matplotlib,那么就可以完全不使用SQL语句进行数据分析了。可以100%使用Python代码搞定一切。

本节将使用Pandas完成与上一节相同的数据分析,并使用Matplotlib将分析结果以图形化方式展现出来。

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围! python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

运行程序,会看到在窗口上绘制了如图10所示的胸罩销售比例。用Pandas分析得到的数据与使用SQL分析得到的数据完全相同。

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!

图10:胸罩销售比例(按罩杯尺寸)

其他分析也可以使用Pandas,可视化使用Matplotlib。这两个工具真是个强大的东西。

python抓取淘宝的胸罩售卖数据,得出女性普遍的胸部大小范围!
上一篇下一篇

猜你喜欢

热点阅读