爬虫大佬都是怎么样的？听说都是百万数据随便爬的！来，见识一下

2018-07-10 本文已影响30人 919b0c54458f

准备工作

User-Agent池

爬微博，这种大项目，必要充分的伪装是必须的，所以需要一个User-Agent池，每次，随机选择一个User-Agent。

爬虫策略

登录微博

登录一直是一个很复杂的问题，不过，我们可以通过selenium来简化这个问题。

直接通过selenium编写浏览器的脚本，自动打开微博的手机站，点击登录，在输入框中填充账号，密码，再点击登录。最后返回cookie即可。

Scrapy配置

MiddleWare：随机User-Agent和随机Cookie

Mongodb：网络爬虫，数据项进场会出现不全，格式不统一的状况，所以采用Mongodb较为合适

进群：125240963 即可获取数十套 PDF哦！