Scrapy中间件的使用

2020-03-21 本文已影响0人奇而思

下载中间件

默认的中间件优先级为：

{
    'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
    'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
    'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
    'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400,
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500,
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
    'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560,
    'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
    'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
    'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
    'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
    'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
}

其中，数字低的更接近engine, 数字高的更接近downloader。
如果要取消使用默认的中间件，需要在设置中将其值定义为None

DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.CustomDownloaderMiddleware': 543,
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}

自定义中间件

需要包含以下函数

process_request(request,spider)
该函数需要返回：None, Response, Request, 或者raise IgnoreRequest。四者中的一个。
如果返回None，则继续调用后续的中间件
如果返回Response，则不会调用后续方法，开始进入处理Response的流程
如果返回Request，那么也不会继续处理，而是进入处理Request的流程
如果返回IgnoreRequest，会调用已经用过的中间件的process_exception方法。如果都不能处理，会调用Request.errback函数。如果都不能处理，会被忽略，不会记录（不像其他exceptin会被记录）
process_response(request,response,spider)
需要返回下列之一：Response, Request, raise IgnoreRequest
返回Response，继续传递给后面的中间件
返回Request，中间件处理停止，进入处理Request流程，Request进入队列等待下载
raise IgnoreRequest，调用Request.errback函数。如果都不能处理，会被忽略，不会记录（不像其他exceptin会被记录）
process_exception(request,exception,spider)
用于处理异常。返回None，Request，Response中的一个
返回None，则继续调用其他中间件的process_exception函数，直到没有中间件和触发其他异常。
返回Response：调用各中间件的process_response()函数
返回Request：进入Request处理流程
from_crawler(cls,crawler)
如果有该函数，那么会调用并从Crawler中创建中间件。该函数返回中间件。

重试中间件

现在有这个需求，有一个网址，我们先用一个代理试一下，如果这个代理连不上，那么就换一个代理试一下。

这个中间件可以从默认的retry中间件中改一下。retry中间件没有加代理功能，只是进行重试。

AutoThrottle 自动节流

这个功能可以动态调节爬取速度。这个是在scrapy自带的DOWNLOAD_DELAY基础上完成的，因此它的delay不会低于DOWNLOAD_DELAY的值。
原理

开始以AUTOTHROTTLE_START_DELAY下载网页
2.当得到回应后，计算时间latency，然后最终的delay设定为：latency/N，其中N由[AUTOTHROTTLE_TARGET_CONCURRENCY]指定。
下一个request的delay由之前的平均值决定
对于不成功的Response，因为返回时间短，所以不考虑，因此对delay没有作用
delay值不低于DOWNLOAD_DELAY, 不高于AUTOTHROTTLE_MAX_DELAY

设置：

AUTOTHROTTLE_ENABLED
默认False
AUTOTHROTTLE_START_DELAY
默认 5s
AUTOTHROTTLE_MAX_DELAY
默认 60s
AUTOTHROTTLE_TARGET_CONCURRENCY
默认1
数字高对服务器压力大。

Scrapy中间件的使用

下载中间件

自定义中间件

重试中间件

AutoThrottle 自动节流

猜你喜欢

热点阅读