(十一) Link Extractors
2019-05-04 本文已影响0人
iamlightsmile
Link Extractors 是用于从网页(scrapy.http.Response
)中抽取会被follow的链接的对象。
Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求。 Scrapy 提供了 scrapy.contrib.linkextractors import LinkExtractor
, 不过您也可以通过实现一个简单的接口来创建您自己的Link Extractor,满足需求。
每个LinkExtractor有唯一的公共方法是 extract_links
,其接收 一个 Response
对象, 并返回 scrapy.link.Link
对象。 Link Extractors只实例化一次,其 extract_links
方法会根据不同的response被调用多次来提取链接。
Link Extractors在 CrawlSpider
类(在Scrapy可用)中使用, 通过一套规则,但你也可以用它在你的Spider中,即使你不是从 CrawlSpider
继承的子类, 因为它的目的很简单: 提取链接。