用python爬取天猫商城手机相关信息

2018-02-13 本文已影响154人云飞学编程

准备换手机了，但是在网站看很麻烦，一页一页翻还得忍受广告的轰炸，还好我们有爬虫！

话不多说，先上干货：

1、环境： python3

2、模块：requests、time、random、lxml#pip安装即可，安装不了的可以尝试下载whl文件，不知道怎么下载的可以留言

3、 url:https://list.tmall.com/search_product.htm?q=%E6%89%8B%E6%9C%BA

#q=后面的内容是”手机”的url编码

4、思路：用xpath获取每个产品的div盒子，然后在取里面信息

然后在获取网页page信息，做循环遍历，总的来说不是很难

5、难点：第一个就是cookie，在写这个代码的时候我重新登录以及中途验证了N次，不得不说，反爬做的不错。记得cookie的获取要在登录后获取，中间加入time.sleep()函数。第二点就是保存到文件了，开始我保存到txt文本了，但是非常难看，而且还想用排序等等功能对所有信息整理，最后选择保存到csv，这样就很简单了。最后一个难点就是内容的获取，我这里一共要获取7个内容，但是在爬取过程中，总有一些是无法获取的，也没有在逐一分析，干脆就用try跳过了，这个地方标记下，以后可以尝试重新写下！

6、拓展：url中好多内容都是无用信息，起码在本次爬虫过程中无用，可以尝试写查询版的爬虫，直接查询分类然后爬取内容。网站反爬很严重的话，可以尝试加入代理ip池和cookie池，应该会避免频繁输入验证码的问题，有空试试！

7、 PS:淘宝本身有api接入我知道的，写这个爬虫呢，主要是练手，并不是就想获取什么什么信息，所以就无视了，介意勿喷！另外提醒大家一点：爬什么信息都可以，但是切记不要传播，有风险哦！

大概就这些，好了，我们来写代码吧！