爬虫笔记（七） - Scrapy_redis 分布式爬虫尝试

2017-05-24 本文已影响148人 Spareribs

本次只是Scrapy_redis的一次尝试，对于分布式爬虫，还是个小白，如果有什么不对的地方请留言
分布式爬虫代码cuiqingcai_redis
目标站点：www.cuiqingcai.com（作者不会打我吧~~~）
不说那么多废话，我们直接开始

简单的拓扑图

简单拓扑图

install scrapy==1.3.3
pymysql==0.7.11
scrapy_redis==0.6.8
其实除了上面的python的库外还需要去了解下：

由于没有经验，本次我只是手动复制数据，下次修改博文我截图分析
scrapy 使用时间：平均 120s左右
windwos下面执行scrapy_redis 使用时间：平均73s左右
windows + 1台虚拟机执行scrapy_redis 使用时间：平45s左右

（占位---待继续更新）

从scrapy crawlspider 到 scrapy_redis crwalspider
给redis添加键值

lpush myspider:start_urls http://hz.58.com/pbdn/0/

redis 在执行过程中添加的键值和键值分析

redis

requests在爬虫结束时会消失

（占位---待继续更新）
以上都是我的跟人观点，如果有不对，或者有更好的方法，欢迎留言指正~~~（持续更新中）