爬虫专题网络爬虫Python数据采集与爬虫

Web Scraper官方文档中文版(第5部分)

2018-01-31  本文已影响38人  风巢

Web Scraper 是谷歌 Chrome 浏览器插件,可自动化提取网页数据,实现不敲代码,指哪爬哪的目标,属于居家出行杀人越货之必备神器。以下是官方文档中文翻译:

译文第 1 部分

译文第 2 部分

译文第 3 部分

译文第 4 部分

译文第 5 部分如下:

4.5 Table(表格)选择器

Table 选择器可以从表格中提取数据。Table 选择器包含 3 个 CSS 选择器。 Selector 用于选择整个表格。在你设定好 Selector 后,Table 选择器会假定 Header row(标题行)选择器和 Data rows(数据行)选择器。你可以点选 Element preview(元素预览)来看是否假定正确。Header row 选择器适用在从多页表格提取数据的情况。下图展示了从表格中提取数据应当如何选择。

4.5.1 配置选项

1)selector - CSS 选择器,用于提取表格元素

2)header row 选择器 - CSS 选择器,用于提取表头

3)data row 选择器 - CSS 选择器,用于提取表身数据

4)multiple - 提取多项数据。对于 Table 选择器通常应选中,因为你要提取多行。

4.5.2 应用案例

参照 Text 选择器应用案例

4.6 Element attribute(元素属性)选择器

Element attribute 选择器可以从 HTML 元素中提取属性值。比如,你可以从如下链接中提取 title 属性:link

4.6.1 配置选项

1)selector - CSS 选择器,用于选择元素

2)multiple - 选取多项记录

3)attribute name - 欲选取的属性名称,比如:title,data-id

4.6.2 应用案例

参照 Text 选择器应用案例

4.7 HTML 选择器

HTML 选择器可从选中元素中提取 HTML 及 文本。只会提取选中元素中的 HTML。

4.7.1 配置选项

1)selector - CSS 选择器,用于提取选中元素中的 HTML。

2)multiple - 提取多项记录

4.7.2 应用案例

参照 Text 选择器应用案例

4.8 Grouped(集合)选择器

Grouped 选择器可样多个元素中文本数据合并为一条记录。提取的文本以 JSON 格式存储。

4.8.1 配置选项

1)selector - CSS 选择器,用于从多元素中合并文本并以 JSON 格式存储。

2)attribute name -  此可选项会提取选中元素的属性。如果选中会将属性也添加到最终的 JSON 文件中。

4.8.2 应用案例

提取文章引用

比如,你要提取一则新闻,可能包含多个引用链接。如果你使用 Link 选择器并选中 multiple,你会在结果中得到重复的文章因为每条记录包含一个应用链接。使用 Grouped 选择器你会将这些链接合并入一条记录。按这种方法选择所有引用链接并将属性名称设定为 href 也会提取到子网站的链接。

注意:此公众号的历史发文会与时俱进,如发现文中有疏漏或方案失效,请至本公众号回复发文日期(格式:yyyymmdd,eg:20180106),获取文章最新版本及更新记录,你,不关注体验下吗?

上一篇 下一篇

猜你喜欢

热点阅读