scrapy微信文章爬虫，加入中间件代理池

2017-04-12 本文已影响654人蜗牛仔

微信文章查询这个网站布局相对简单，提取信息不难，但是反爬比较厉害，分分钟ban掉你IP没话说，今天写了个scrapy中间件，github地址是：
https://github.com/xiaobeibei26/weixin_spider
先看这个网站

很多信息直接在源代码里面
接着，看看我们的大杀器中间件，主要是加入了代理池和user-agent，首先看看文件的结构

Paste_Image.png

这里看看中间件的代码，很短的，如图

Paste_Image.png

封装的数据库代理池代码也很短

Paste_Image.png

这里你可以自己添加ip进去，也可以链接自己数据库的IP池，这次我自己数据库的IP数量很少，而且这个网站貌似识别能力很高，一般的代理搞不掂
然后记得在settings里面调用这个中间件，很简单，如图

Paste_Image.png

最后楼主就爬了几页数据，很多代理我之前测试都没有问题，访问这个网站就不行了，看来要大规模爬虫，对于代理的质量有非常高的要求啊，如图这是运行结果

Paste_Image.png

看来只能等以后把代理池扩充一下再爬了