双十二来了,我爬取了淘宝上所有的羽绒服|想找到最大折扣
阅读本文大概需要3分钟
天气越来越冷,北方已经开始下雪了,而在南方的我此刻也冻着瑟瑟发抖,棉衣棉裤早就穿上了,还是取暖基本靠抖!明天就是双十二了,我想买件羽绒服,于是我爬取了淘宝上所有的卖羽绒服的商家,看看折扣如何,有多少商家打折~~
1.工具选择
淘宝的网站还是比较复杂的,我偷懒直接用了selenium取爬!现在爬虫的工具是在是太多了,有很多第三方的数据采集工具,甚至你不用写一行代码就可以轻松爬取几千几万条的数据!
其实它也是集成了一些爬虫的框架和常见的库,只是做成了一个商业软件封装好了,你可以直接使用!我现在还是喜欢动手写代码来爬数据~~,以后快捷的话可以尝试用一些工具去爬取!
2.网站分析
我们点击关键字搜索"羽绒服"进行页面搜索,发现有这样一些漂亮的页面

然后我审查元素,进行网站分析,发现大部分都是js代码,动态加载的!不是非常好分析,如果你用request加cookies去爬取,爬的内容都是空的,为了简单些,我直接用selenium模拟爬取。
3.爬取过程
整个的思路和爬取拉勾网有点类似,大概分下面几个步骤:
1).安装chrome和selenium库
2).启动chrome进入页面输入关键字"羽绒服"
3).出现搜索页面之后,找到总的页数,进入下一页
4).循环爬取每一页的数据
5).存入json文件或者数据库中
辛苦了半天我们看一下数据的样子:

4.数据分析的几个亮点
我一共爬取了4000多条羽绒服的信息,下面是我分析的几个关键数据:
1.只有6成的商家有折扣
参与双十二的有2706家商户,只有60%的商家打折.清一色的满300减30

2.羽绒服的商家城市前10名

发现排名第一的是杭州,商户的数量非常占了40%以上,非常厉害!其次就是苏州.
3.国内和海外地区

发现海外也有一些羽绒服在卖,海淘果然无处不在,其中加拿大特别多,是不是因为那边比较冷啊!
4.最贵和最便宜的羽绒服:

最便宜的是福建 泉州的一家只要49块,最贵的是深圳的诗篇官方要7980块,天价羽绒服!
5.男女羽绒服的比例
对数据进行简单的过滤分析,发现有男款,女款和通用款三种类型:
女 2244 50.9%
男 1924 43.6%
其他 236 5%
女款占了一半以上,女款还是比较多滴.
6.我最关心的价格和折扣:

基本价格在598,699的羽绒服非常多,其中598的打折满300-30有66家,打折最多的是699的,有91家打折!最厉害的是1299的羽绒服里面有50家打折,占了98%,也就是说1299的羽绒服几乎全部打折!
结论:
数据分析的过程其实非常有意思,限于篇幅我没有深入挖掘数据的内在联系,当然如果数据量大一点话会更好玩,挖掘出的价值会更高,后面还会有一些更好玩有趣的Python文章,敬请期待吧!
公众号留言,获得更多源码