Web Scraper 保姆级新手使用教程

2021-01-17 本文已影响0人 067ad9b0bfd8

一个免费的批量快速抓取页面信息的插件

一个永久免费帮助你可以抓取用户反馈评价的东西

一个无需代码编程基础也能操作的神器

一个帮助你减少很多人力成本取寻找整理信息的黑科技

.....

Web Scraper-一个可以网站信息抓取的谷歌浏览器插件

使用教程：

准备：

1、下载谷歌浏览器

2、下载Web scraper插件

PS：谷歌浏览器不需要外网也可以在网上下载，但是Web Scraper就需要能使用外网下载了

最后结果展示

打开你要抓取的网页。

首先要使用该插件来提取网页数据需要在开发者工具模式中使用，使用快捷键Ctrl+Shift+I/F12或者点击右键，选择“检查（Inspect）”，在【开发者工具】下面就能看到WebScraper的Tab。如下图所示：

新建一个Sitemap

点击Create New Sitemap，里面有两个选项，选create sitemap

然后进行这两个操作：

1、Sitemap Name：代表你这个Sitemap是适用于哪一个网页的，所以你可以根据网页来自命名，不过需要使用英文字母，比如我抓的是知乎的数据，那我就用zhihu来命名。

2、Sitemap URL：把网页链接复制到Star URL这一栏，比如图片里我把知乎「英语」的主页链接复制到了这一栏，而后点击下方的create sitemap来新建一个Sitemap

3、设置Sitemap

整个Web Scraper的抓取逻辑是这样：设置一级 Selector，选定抓取范围；在一级 Selector 下设置二级 Selector，选定抓取字段，然后抓取。

对于文章而言，一级 Selector 就是你要把这一块文章的要素圈出来，这个要素可能包含了标题、作者、发布时间、评论数等等，然后我们再在二级 Selector 中挑出我们要的要素，比如标题、作者、阅读数。

下面我们来拆解这个设置一级、二级 Selector 的工作流：

(1)点击 Add new selector 创建一级 Selector。

而后按照以下步骤操作：

输入id：id代表你抓取的整个范围，比如这里是文章，我们可以命名为zhihu-english；

选择Type：type 代表你抓取的这部分的类型，比如元素／文本／链接，因为这个是整个文章要素范围选取，我们需要用Element 来先整体选取（如果这个网页需要滑动加载更多，那就选 Element Scroll Down）；

勾选Multiple：勾选 Multiple 前面的小框，因为你要选的是多个元素而不是单个元素，当我们勾选的时候，爬虫插件会帮助我们识别多篇同类的文章；

保留设置：其余未提及部分保留默认设置

(2)点击select选择范围，按照以下步骤操作：

-选择范围：用鼠标选择你要爬取数据的范围，绿色是待选区域，用鼠标点击后变为红色，才是选中了这块区域；

-多选：不要只选一个，下面的也要选，否则爬出来的数据也只有一行；

-完成选择：记得点Done Selecting；

-保存：点击Save Selector。

(3)设置好了这个一级的Selector之后，点进去设置二级的Selector，按照以下步骤操作：

-新建Selector：点击 Add new selector ；

-输入id：id代表你抓取的是哪个字段，所以可以取该字段的英文，比如我要选「标题」，我就写「title」

-选择Type：选Text，因为你要抓取的是文本；

-勿勾选Multiple：不要勾选 Multiple 前面的小框，因为我们在这里要抓取的是单个元素；

-保留设置：其余未提及部分保留默认设置。

(4)点击 select，再点击你要爬取的字段，按照以下步骤操作：

-选择字段：这里爬取的字段是单个的，用鼠标点击该字段即可选定，比如要爬标题，那就用鼠标点击某篇文章的标题，当字段所在区域变红即为选中

-完成选择：记得点 Done Selecting

-保存：点击 Save Selector

(5)重复以上操作，直到选完你想爬的字段。

4、爬取数据

(1)之后你想要爬取数据只需要设置完所有的Selector就可以开始：

点击Scrape，弹出一个小窗后爬虫就会开始工作。你会得到一个列表，上面有你想要的所有数据。

(2)如果你希望把这些数据做一个排序，比如按照阅读量、赞数、作者等指标排序，让数据更一目了然，那么你可以点击 Export Data as CSV，把它导入 Excel 表里。

(3)导入 Excel 表格之后，你就可以对数据进行筛选了。

结果展示

这个是简单的初级操作，大家去试试吧

Web Scraper 保姆级新手使用教程

猜你喜欢

热点阅读