Scrapy 框架中的Scrapy选择器(十八)

2019-07-31  本文已影响0人  梦捷者

一、Scrapy选择器的概述

Scrapy提供基于lxml库的解析机制,它们被称为选择器。因为,它们“选择”由XPath或CSS表达式指定的HTML文档的某部分。Scarpy选择器的API非常小,且非常简单。

二、构造Scrapy选择器

Scrapy选择器是通过scrapy.Selector类,通过传递文本或者TextResonse对象构造的实例。它会根据输入类型自动选择最佳解析规则。

三、使用Scrapy选择器

1、选择器提供2个方法来提取标签
2、快捷方式

注意:它们返回的选择器列表

3、提取文本

四、嵌套选择器

有时候我们获取标签需要多次调用选择方法(.xpath()或.css())

1、response.css('img').xpath('@src')
它的原理见下图案例:
2、Selector还有一个.re()方法使用正则表达式提取数据的方法。它返回的是字符串。它一般使用在xpath(),css()方法之后,用来过滤文本数据。在他之后不能用xpath()和css()方法。
3、re_first()用来返回第一个匹配的字符串,就在re的基础上提取一个数据而已,而re可以提取多条数据。

例如:response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s(.)')

上一篇 下一篇

猜你喜欢

热点阅读