Python数据采集与爬虫ScrapyPython 爬虫专栏

scrapy微信文章爬虫,加入中间件代理池

2017-04-12  本文已影响654人  蜗牛仔

微信文章查询这个网站布局相对简单,提取信息不难,但是反爬比较厉害,分分钟ban掉你IP没话说,今天写了个scrapy中间件,github地址是:
https://github.com/xiaobeibei26/weixin_spider
先看这个网站


很多信息直接在源代码里面
接着,看看我们的大杀器中间件,主要是加入了代理池和user-agent,首先看看文件的结构

Paste_Image.png

这里看看中间件的代码,很短的,如图


Paste_Image.png

封装的数据库代理池代码也很短

Paste_Image.png

这里你可以自己添加ip进去,也可以链接自己数据库的IP池,这次我自己数据库的IP数量很少,而且这个网站貌似识别能力很高,一般的代理搞不掂
然后记得在settings里面调用这个中间件,很简单,如图

Paste_Image.png

最后楼主就爬了几页数据,很多代理我之前测试都没有问题,访问这个网站就不行了,看来要大规模爬虫,对于代理的质量有非常高的要求啊,如图这是运行结果

Paste_Image.png Paste_Image.png

看来只能等以后把代理池扩充一下再爬了

上一篇下一篇

猜你喜欢

热点阅读