网络爬虫Python数据采集与爬虫爬虫专题

Web Scraper官方文档中文版(完结篇)

2018-01-31  本文已影响834人  风巢

Web Scraper 是谷歌 Chrome 浏览器插件,可自动化提取网页数据,实现不敲代码,指哪爬哪的目标,属于居家出行杀人越货之必备神器。以下是官方文档中文翻译:

Web Scraper官方文档中文版(第1部分):

关于Web Scraper安装、开启以及抓取网站实例

Web Scraper官方文档中文版(第2部分):

选择器(selector)分类、设定选项以及应用案例

Web Scraper官方文档中文版(第3部分):

Link(链接)选择器 & Link popup (弹出链接)选择器

Web Scraper官方文档中文版(第4部分):

Image(图像)选择器简介、配置选项、应用案例以及图像下载脚本

Web Scraper官方文档中文版(第5部分):

Table(表格)、Element attribute(元素属性)、HTML 以及Grouped(集合)选择器

Web Scraper官方文档中文版(第6部分):Element(元素)、Element scroll down(元素下拉)、Element click(元素点击)选择器

以下是第7部分,完结篇:

五、CSS selector(选择器)

1、CSS selector

Web Scraper 使用 CSS 选择器在网页中定位 HTML 元素,并从中提取数据。当选则一个元素时,Web Scraper会最优化猜测选中元素的 CSS 选择器。你也可以通过直接输入并点击“Element preview(元素预览)”的方式进行测试。你可以使用 CSS 版本 1~3 中的 CSS 选择器以及 jQuery 中额外的伪选择器。如下文档可能对你会有帮助:

1)CSS Selectors:

http://en.wikipedia.org/wiki/Cascading_Style_Sheets#Selector

2) jQuery CSS selectors:

http://api.jquery.com/category/selectors/

3) w3schools CSS selector reference:

http://www.w3schools.com/cssref/css_selectors.asp

2、额外 Web Scraper 选择器

可以添加新的伪 CSS 选择器到 Web Scraper 。现在只添加了 1 项 CSS 选择器。

Parent 选择器

CSS 选择器 _parent_ 允许一个 Element 选择器的子选择器选中元素并以 Element 选择器的形式返回。

比如,此选择器可应用在如下情况,当你i需要从 Element 选择器返回的元素中提取某项属性。

六、存储后端

Web Scraper 可以设置使用本地存储或是 CouchDB。默认都是本地存储。

本地存储

本地存储后端使用浏览器内置数据库存储数据。

CouchDB

CouchDB 是一个 RESTful NoSQL JavaScript 数据库。你可以对扩展进行设置,将 sitemap 及抓取的数据存储在这个数据库。数据可以在你的所有 Chrome 实例中进行存取。你需要在选项页进行配置。你可以对存储后端进行切换。针对 CouchDB,你需要对数据库进行配置,设定 sitemap 的存储位置以及 couchdb 数据库服务器赚取下来的数据的存储位置。比如,你可按以下示例进行配置:

1)sitemap db - http://localhost:5984/scraper-sitemaps

2)data db - http://localhost:5984/

【福利时刻】截止今日Web Scraper官方文档中文版已彻底翻译完成,各位可至以下网址(链接: https://pan.baidu.com/s/1eTLvPFO 密码: bqz4)下载 PDF 版,或在公众号后台回复 “wsdd” 获取后续更新下载地址。

上一篇下一篇

猜你喜欢

热点阅读