如何 5 分钟零代码实现豆瓣小组爬虫

2020-06-08 本文已影响0人 0xjeff

image

我们经常在朋友圈看到 Python 培训广告，宣传语必然有几大关键点，Python 语言简单到飞起，职场必备技能，学完升职加薪。

诚然，Python 作为一个脚本语言，学习相对简单，但是学习语言的目的是什么，是为了解决问题，不然学了这么久语法，几个月后还是从 print( hello world) 重新开始。

既然明确是为了解决问题，比如我想获取某个网页的数据并整理成 excel。通过网上搜索，或者问周围的程序员朋友，大部分的回答是用 Python 写个爬虫。

其实不然，有很多优秀的工具完全能满足爬取网页需求，而且不用写一行代码，这次介绍的就是小白爬虫利器 - Web Scraper （谷歌浏览器插件）。

举个例子，我们这次的任务是爬取豆瓣穷游天下小组的帖子。

准备工作

首先确保你安装了新版谷歌浏览器和 WebScraper 插件，插件安装教程见：谷歌(Chrome)浏览器插件安装教程

步骤

打开豆瓣穷游天下小组 https://www.douban.com/group/qiong/discussion ，右键点击检查，弹出如下页面，然后点击 Web Scraper，开始我们的自动化脚本之路。
创建一个新的 Sitemap
image
Start url 是开始爬取的初始页 image
点击 Add new selector
image
新建第一个 Selector，定义豆瓣小组的页数，Id 写 page, Type 为 link ，然后点击 Select，选中图中 2 的位置，让页数都呈现红色选中状态，点击 Done selecting!
image
接下来勾选 Multiple，意思是这个页面中有多条记录，Parent Selectors 选中 _root 和 page，点击 Save。
image
我们再新建一个 Selector, 定义一个帖子的页面元素，Id 为 post, Type 选 Element。然后按下图步骤重复操作选择 selector，勾选 Multiple，Parent Selectors 选中 _root 和 page，点击 Save。
image
点击 post，我们接下来在 post 元素里选择合适的内容
image
新建一个 Selector，定义帖子的标题, Id 为 title, Type 选为 Link，然后按下图步骤重复操作选择 selector，点击 Save。