爬虫专题网络爬虫Python数据采集与爬虫

Web Scraper 入门教程(第5课)

2018-01-31  本文已影响133人  风巢

Web Scraper 是谷歌 Chrome 浏览器插件,可自动化提取网页数据,实现不敲代码,指哪爬哪的目标,属于居家出行杀人越货之必备神器。

第 1 课内容:抓取案例、抓取流程

第 2 课内容:抓取环境设置

第 3 课内容:Sitemap设计

第 4 课内容:Web Scraper 实操

下面开始第 5 课,开始抓取网站信息。

一、导入 Sitemap

这节课咱们直接导入 Sitemap,先上手体验下抓取数据的快感。按上节课所学打开 Web Scraper,然后按下图顺序点击:

打开如下页面:

在上图「Sitemap JSON」下方的空栏处粘贴如下神秘代码:

{"_id":"chensufeng-zhihu-post","startUrl":["https://www.zhihu.com/people/Feat/posts?page=[1-3]"],"selectors":[{"id":"post-element","type":"SelectorElement","selector":"div.List-item","parentSelectors":["_root"],"multiple":true,"delay":"2000"},{"id":"post-title","type":"SelectorText","selector":"h2.ContentItem-title a","parentSelectors":["post-element"],"multiple":false,"regex":"","delay":0},{"id":"full-content-link","type":"SelectorLink","selector":"h2.ContentItem-title a","parentSelectors":["post-element"],"multiple":false,"delay":0},{"id":"like-count","type":"SelectorText","selector":"span.Voters button.Button","parentSelectors":["post-element"],"multiple":false,"regex":"[0-9]+","delay":0},{"id":"post-full-content","type":"SelectorText","selector":"div.RichText.PostIndex-content","parentSelectors":["full-content-link"],"multiple":false,"regex":"","delay":"2000"}]}

粘贴后,点击「Import Sitemap(导入 Sitemap)」进入下图界面:

此时点击「Sitemaps」

会发现比刚开始时多出红框部分,这就是我们导入用于抓取陈素封文章标题、全文及点赞数的 Sitemap。

二、数据抓取

上面步骤做完后,接下来我来演示下如何进行数据抓取(仅保留关键片段):

抓取后导出的 Excel 文件优化格式后如下图所示:

很简单有木有,大家不妨按照上述流程尝试下,体验下自动化抓取第一个网站的快感。

三、互动问答

至此,我们的第 1 次数据抓取工作已经完成,仔细观察下之前粘贴的神秘代码,揣摩下其中有什么规律。

如果我们现在要抓取知乎大V江南愤青的文章前 5 页文章标题、全文及点赞数,应该如何对那段代码进行修改?网址如下:

https://www.zhihu.com/people/jiang-nan-fen-qing/posts

不妨自己先做下尝试,回复 “20180128” 可获得本文最新版本及此题解答。

下堂课我们会对此段代码进行深入讲解,欢迎继续关注。

【福利】

1、回复wsdd,获取我翻译的《Web Scraper官方文档》。

2、回复wssm,可获得各大常见网站 Sitemap 示例,此列表还会持续更新

您可能对以下文章也感兴趣:

1、如何用网络爬虫打造一架印钞机

2、3分钟掌握Excel网络爬虫

3、这3类人已经赚翻了,你还在佛系养蛙?

4、信息差套利的 3 个 level,你在哪层?

上一篇下一篇

猜你喜欢

热点阅读