(十一) Link Extractors

2019-05-04 本文已影响0人 iamlightsmile

Link Extractors 是用于从网页(scrapy.http.Response )中抽取会被follow的链接的对象。

Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求｡ Scrapy 提供了 scrapy.contrib.linkextractors import LinkExtractor ，不过您也可以通过实现一个简单的接口来创建您自己的Link Extractor，满足需求。

每个LinkExtractor有唯一的公共方法是 extract_links ，其接收一个 Response 对象，并返回 scrapy.link.Link 对象｡ Link Extractors只实例化一次，其 extract_links 方法会根据不同的response被调用多次来提取链接｡

Link Extractors在 CrawlSpider 类(在Scrapy可用)中使用, 通过一套规则,但你也可以用它在你的Spider中,即使你不是从 CrawlSpider 继承的子类, 因为它的目的很简单: 提取链接｡

(十一) Link Extractors

猜你喜欢

热点阅读