Web Scraper 入门教程（第5课）

2018-01-31 本文已影响133人风巢

Web Scraper 是谷歌 Chrome 浏览器插件，可自动化提取网页数据，实现不敲代码，指哪爬哪的目标，属于居家出行杀人越货之必备神器。

第 1 课内容：抓取案例、抓取流程

第 2 课内容：抓取环境设置

第 3 课内容：Sitemap 设计

第 4 课内容：Web Scraper 实操

下面开始第 5 课，开始抓取网站信息。

一、导入 Sitemap

这节课咱们直接导入 Sitemap，先上手体验下抓取数据的快感。按上节课所学打开 Web Scraper，然后按下图顺序点击：

打开如下页面：

在上图「Sitemap JSON」下方的空栏处粘贴如下神秘代码：

{"_id":"chensufeng-zhihu-post","startUrl":["https://www.zhihu.com/people/Feat/posts?page=[1-3]"],"selectors":[{"id":"post-element","type":"SelectorElement","selector":"div.List-item","parentSelectors":["_root"],"multiple":true,"delay":"2000"},{"id":"post-title","type":"SelectorText","selector":"h2.ContentItem-title a","parentSelectors":["post-element"],"multiple":false,"regex":"","delay":0},{"id":"full-content-link","type":"SelectorLink","selector":"h2.ContentItem-title a","parentSelectors":["post-element"],"multiple":false,"delay":0},{"id":"like-count","type":"SelectorText","selector":"span.Voters button.Button","parentSelectors":["post-element"],"multiple":false,"regex":"[0-9]+","delay":0},{"id":"post-full-content","type":"SelectorText","selector":"div.RichText.PostIndex-content","parentSelectors":["full-content-link"],"multiple":false,"regex":"","delay":"2000"}]}

粘贴后，点击「Import Sitemap（导入 Sitemap）」进入下图界面：