大数据 爬虫Python AI Sql

爬虫大佬都是怎么样的?听说都是百万数据随便爬的!来,见识一下

2018-07-10  本文已影响30人  919b0c54458f

准备工作

User-Agent池

爬微博,这种大项目,必要充分的伪装是必须的,所以需要一个User-Agent池,每次,随机选择一个User-Agent。

爬虫策略

登录微博

登录一直是一个很复杂的问题,不过,我们可以通过selenium来简化这个问题。

直接通过selenium编写浏览器的脚本,自动打开微博的手机站,点击登录,在输入框中填充账号,密码,再点击登录。最后返回cookie即可。

Scrapy配置

MiddleWare:随机User-Agent和随机Cookie

Mongodb:网络爬虫,数据项进场会出现不全,格式不统一的状况,所以采用Mongodb较为合适

进群:125240963    即可获取数十套 PDF哦!

上一篇下一篇

猜你喜欢

热点阅读