爬虫笔记(七) - Scrapy_redis 分布式爬虫尝试
2017-05-24 本文已影响148人
Spareribs
本次只是Scrapy_redis的一次尝试,对于分布式爬虫,还是个小白,如果有什么不对的地方请留言
分布式爬虫代码cuiqingcai_redis
目标站点:www.cuiqingcai.com(作者不会打我吧~~~)
不说那么多废话,我们直接开始
简单的拓扑图
简单拓扑图环境需要
install scrapy==1.3.3
pymysql==0.7.11
scrapy_redis==0.6.8
其实除了上面的python的库外还需要去了解下:
- redis的使用
- 数据库的使用:权限、中文乱码等
时间对比分析(用数据说话)
由于没有经验,本次我只是手动复制数据,下次修改博文我截图分析
scrapy 使用时间:平均 120s左右
windwos下面执行scrapy_redis 使用时间: 平均73s左右
windows + 1台虚拟机 执行scrapy_redis 使用时间 :平45s左右
(占位---待继续更新)
使用教程和方法
从scrapy crawlspider 到 scrapy_redis crwalspider
给redis添加键值
lpush myspider:start_urls http://hz.58.com/pbdn/0/
redis 在执行过程中添加的键值和键值分析
redisrequests在爬虫结束时会消失
(占位---待继续更新)
以上都是我的跟人观点,如果有不对,或者有更好的方法,欢迎留言指正~~~(持续更新中)