scrapy微信文章爬虫,加入中间件代理池
2017-04-12 本文已影响654人
蜗牛仔
微信文章查询这个网站布局相对简单,提取信息不难,但是反爬比较厉害,分分钟ban掉你IP没话说,今天写了个scrapy中间件,github地址是:
https://github.com/xiaobeibei26/weixin_spider
先看这个网站
很多信息直接在源代码里面
接着,看看我们的大杀器中间件,主要是加入了代理池和user-agent,首先看看文件的结构
这里看看中间件的代码,很短的,如图
Paste_Image.png
封装的数据库代理池代码也很短
Paste_Image.png这里你可以自己添加ip进去,也可以链接自己数据库的IP池,这次我自己数据库的IP数量很少,而且这个网站貌似识别能力很高,一般的代理搞不掂
然后记得在settings里面调用这个中间件,很简单,如图
最后楼主就爬了几页数据,很多代理我之前测试都没有问题,访问这个网站就不行了,看来要大规模爬虫,对于代理的质量有非常高的要求啊,如图这是运行结果
Paste_Image.png Paste_Image.png看来只能等以后把代理池扩充一下再爬了