Scrapy框架学习1

2017-04-11  本文已影响0人  浅望夜星

scrapy爬虫框架结构

爬虫框架

    爬虫框架是实现爬虫功能的一个软件结构和功能组件的集合

    爬虫框架是一个半成品,能够帮助用户实现专业网络


“5+2”结构

     用户编写实现:(  入口:SPIDERS    出口:ITEMPIPELINES)

     已有实现:ENGINE,SCHEDULER,DOWNLOADER

     模块的功能

     1.Engine

             不需要用户修改

             控制所有模块之间的数据流

             根据条件触发事件

      2.Downloader

             不需要用户修改

             根据请求下载网页

       3.Scheduler

             不需要用户修改

             对所有爬取请求进行调度管理

       4.Downloader Middleware中间件

             目的:实施Engine、Scheluder、Downloader之间进行用户可配置的控制

             功能:修改丢弃新增请求或响应

             用户可以编写配置代码

       5.Spider(核心单元)

             解析Downloader返回的响应

             产生爬取项

             产生额外的爬取请求

        6.Item pipelines

             以流水线方式处理Spider产生的爬取项

             由一组操作顺序组成,类似流水线,每个操作是一个Item pipeline类型

             可能操作包括:清理、检验和查重爬取项中给的HTML数据、将数据存储到数据库

         7.Spider  Middleware

             目的:对请求和爬取项的再处理
             功能:修改丢弃新增请求或爬取项

Requests  vs.  Srcapy


Scrapy框架常用命令

     cmd -> scrapy -h ->进入scrapy命令行          
                                                scrapy常用命令

上一篇下一篇

猜你喜欢

热点阅读