Web Scraper官方文档中文版（第5部分）

2018-01-31 本文已影响38人风巢

Web Scraper 是谷歌 Chrome 浏览器插件，可自动化提取网页数据，实现不敲代码，指哪爬哪的目标，属于居家出行杀人越货之必备神器。以下是官方文档中文翻译：

译文第 5 部分如下：

4.5 Table（表格）选择器

Table 选择器可以从表格中提取数据。Table 选择器包含 3 个 CSS 选择器。 Selector 用于选择整个表格。在你设定好 Selector 后，Table 选择器会假定 Header row（标题行）选择器和 Data rows（数据行）选择器。你可以点选 Element preview（元素预览）来看是否假定正确。Header row 选择器适用在从多页表格提取数据的情况。下图展示了从表格中提取数据应当如何选择。

4.5.1 配置选项

1）selector - CSS 选择器，用于提取表格元素

2）header row 选择器 - CSS 选择器，用于提取表头

3）data row 选择器 - CSS 选择器，用于提取表身数据

4）multiple - 提取多项数据。对于 Table 选择器通常应选中，因为你要提取多行。

4.5.2 应用案例

参照 Text 选择器应用案例

4.6 Element attribute（元素属性）选择器

Element attribute 选择器可以从 HTML 元素中提取属性值。比如，你可以从如下链接中提取 title 属性：link 。

4.6.1 配置选项

1）selector - CSS 选择器，用于选择元素

2）multiple - 选取多项记录

3）attribute name - 欲选取的属性名称，比如：title，data-id

4.6.2 应用案例

参照 Text 选择器应用案例

4.7 HTML 选择器

HTML 选择器可从选中元素中提取 HTML 及文本。只会提取选中元素中的 HTML。

4.7.1 配置选项

1）selector - CSS 选择器，用于提取选中元素中的 HTML。

2）multiple - 提取多项记录

4.7.2 应用案例

参照 Text 选择器应用案例

4.8 Grouped（集合）选择器

Grouped 选择器可样多个元素中文本数据合并为一条记录。提取的文本以 JSON 格式存储。

4.8.1 配置选项

1）selector - CSS 选择器，用于从多元素中合并文本并以 JSON 格式存储。

2）attribute name - 此可选项会提取选中元素的属性。如果选中会将属性也添加到最终的 JSON 文件中。

4.8.2 应用案例

提取文章引用

比如，你要提取一则新闻，可能包含多个引用链接。如果你使用 Link 选择器并选中 multiple，你会在结果中得到重复的文章因为每条记录包含一个应用链接。使用 Grouped 选择器你会将这些链接合并入一条记录。按这种方法选择所有引用链接并将属性名称设定为 href 也会提取到子网站的链接。

注意：此公众号的历史发文会与时俱进，如发现文中有疏漏或方案失效，请至本公众号回复发文日期（格式：yyyymmdd，eg：20180106），获取文章最新版本及更新记录，你，不关注体验下吗？

Web Scraper官方文档中文版（第5部分）

猜你喜欢

热点阅读