爬虫大佬都是怎么样的?听说都是百万数据随便爬的!来,见识一下
2018-07-10 本文已影响30人
919b0c54458f
准备工作
User-Agent池
爬微博,这种大项目,必要充分的伪装是必须的,所以需要一个User-Agent池,每次,随机选择一个User-Agent。
爬虫策略
登录微博
登录一直是一个很复杂的问题,不过,我们可以通过selenium来简化这个问题。
直接通过selenium编写浏览器的脚本,自动打开微博的手机站,点击登录,在输入框中填充账号,密码,再点击登录。最后返回cookie即可。
Scrapy配置
MiddleWare:随机User-Agent和随机Cookie
Mongodb:网络爬虫,数据项进场会出现不全,格式不统一的状况,所以采用Mongodb较为合适
进群:125240963 即可获取数十套 PDF哦!