python爬虫日记本python 爬虫爬虫进化日记

爬虫笔记(七) - Scrapy_redis 分布式爬虫尝试

2017-05-24  本文已影响148人  Spareribs

本次只是Scrapy_redis的一次尝试,对于分布式爬虫,还是个小白,如果有什么不对的地方请留言
分布式爬虫代码cuiqingcai_redis
目标站点:www.cuiqingcai.com(作者不会打我吧~~~)
不说那么多废话,我们直接开始

简单的拓扑图

简单拓扑图

环境需要

install scrapy==1.3.3
pymysql==0.7.11
scrapy_redis==0.6.8
其实除了上面的python的库外还需要去了解下:

  1. redis的使用
  2. 数据库的使用:权限、中文乱码等

时间对比分析(用数据说话)

由于没有经验,本次我只是手动复制数据,下次修改博文我截图分析
scrapy 使用时间:平均 120s左右
windwos下面执行scrapy_redis 使用时间: 平均73s左右
windows + 1台虚拟机 执行scrapy_redis 使用时间 :平45s左右

(占位---待继续更新)

使用教程和方法

从scrapy crawlspider 到 scrapy_redis crwalspider
给redis添加键值

lpush myspider:start_urls http://hz.58.com/pbdn/0/

redis 在执行过程中添加的键值和键值分析

redis

requests在爬虫结束时会消失

(占位---待继续更新)
以上都是我的跟人观点,如果有不对,或者有更好的方法,欢迎留言指正~~~(持续更新中)

上一篇下一篇

猜你喜欢

热点阅读