爬虫专题大数据爬虫Python AI Sql 网络爬虫

Web Scraper 入门教程（第6课）

2018-01-31 本文已影响111人风巢

Web Scraper 是谷歌 Chrome 浏览器插件，可自动化提取网页数据，实现不敲代码，指哪爬哪的目标，属于居家出行杀人越货之必备神器。

第 1 课内容：抓取案例、流程

第 2 课内容：环境设置

第 3 课内容：Sitemap Start URL 设计

第 4 课内容：建立 Sitemap

第 5 课内容：实操、导入 Sitemap

下面开始第 6 课，Sitemap 精讲。

一、神奇代码

昨天我们讲到一段神奇代码：

{"_id":"chensufeng-zhihu-post","startUrl":["https://www.zhihu.com/people/Feat/posts?page=[1-3]"],"selectors":[{"id":"post-element","type":"SelectorElement","selector":"div.List-item","parentSelectors":["_root"],"multiple":true,"delay":"2000"},{"id":"post-title","type":"SelectorText","selector":"h2.ContentItem-title a","parentSelectors":["post-element"],"multiple":false,"regex":"","delay":0},{"id":"full-content-link","type":"SelectorLink","selector":"h2.ContentItem-title a","parentSelectors":["post-element"],"multiple":false,"delay":0},{"id":"like-count","type":"SelectorText","selector":"span.Voters button.Button","parentSelectors":["post-element"],"multiple":false,"regex":"[0-9]+","delay":0},{"id":"post-full-content","type":"SelectorText","selector":"div.RichText.PostIndex-content","parentSelectors":["full-content-link"],"multiple":false,"regex":"","delay":"2000"}]}

看到以上代码，估计大家的心情是这样的。

来，咱们重新排个版：

哇，是不是有女神经变女神脱胎换骨的赶脚？

再同之前第 1 课（点击链接直达）第 2 部分抓取流程中的几幅图对照一下，是不是明白了什么？

二、Sitemap 解构

如上面重新排版图所示，Sitemap 分为 3 个组分：

A：ID：Sitemap 名称。第 4 课（点击链接直达）第 2 部分我讲了取名规则及命名技巧，还记得不？

B：Start URL：抓取网站起始地址。第 3 课（点击链接直达）我已详细讲述如何寻找网址规律从而进行 Sitemap Start URL 设计。

上面两条不记得的，那个啥伺候：

C：Selectors（选择器）：这是是 Web Scraper 的精髓，这个咱们下节开撩。

三、一些感想

我有时候不禁思考，我们学这些工具是为了什么。

很简单，为了把所有你已经了解而懒得一而再再而三重复做让你觉得生活索然无味的事情变成以上优雅代码，甩锅给电脑。

外面浮云白日，山岳庄严温柔，找到你命定的妹子/汉子，面对面坐在这寂静的和横溢欲流的闲暇里，一起吟诵生命的献诗多好。

【福利】

1、回复wsdd，获取我翻译的《Web Scraper官方文档》。

2、回复wssm，可获得各大常见网站 Sitemap 示例，此列表还会持续更新。

3、为方便大家学习交流爬虫知识。我建了个在线文档「爬虫学习材料梳理」，网址：

https://shimo.im/docs/qc5HJYODsNQJcL6k/

可收藏此链接，直达课程，并了解最新信息。

4、另外我组建了个学习小组一起切磋爬虫技能，加我微信 wincatcher 拉你加入。

可能对以下文章也感兴趣：

1、如何用网络爬虫打造一架印钞机

2、3分钟掌握Excel网络爬虫

3、这3类人已经赚翻了，你还在佛系养蛙？

4、信息差套利的 3 个 level，你在哪层？

上一篇下一篇

猜你喜欢

热点阅读