爬虫—Web Scraper（一）

2017-05-08 本文已影响566人端_木

跟大家分享的是web scraper爬虫工具使用方法。

目录

1.Web Scraper插件安装

2.上手体验

3.抓取的基本步骤

4.规律多页规则

5.下载数据

1、Web Scraper插件安装：

Google浏览器扩展程序中搜素“Web Scraper”安装即可。

2、上手体验

Web Scraper-->Creater New sitemap--> Import sitemap-->sitemap JSON 区域输入神秘代码-->输入站点名（自定义）并导入。

神秘代码：

{"_id":"test","startUrl":"https://www.zhihu.com/people/chen-da-xin-84/followers?page=2","selectors":[{"parentSelectors":["_root"],"type":"SelectorText","multiple":true,"id":"Username","selector":"div.UserItem-title a.UserLink-link","regex":"","delay":"500"}]}

3、抓取的基本步骤

使用web scraper插件抓取的基本步骤为：

- 创建一个站点Create sitemap

- 新增选择器Add new selector

- 点击Scrape抓取

具体操作步骤如下：

步骤一：创建一个新的站点“Create sitemap”

打开控制台—选择web scraper插件—选择Create new sitemap—选择Create sitemap；

在Sitemap name中给站点地图命名，在Start URL中输入站点名（自定义）和网址（目标地址），点击Create Sitemap按钮，就创建好了一个站点地图。

步骤二：增加选择器，点击“Add New selector”；

选择器的配置：

1. Type选择Text文本形

2.勾选Multiple按钮，表示本页中需要抓取多个元素

3.Delay填写500

4.点击Selector的select按钮直接用鼠标选网页上的元素，绝色代码可采集的数据，点击后为红色锁定状态

步骤三：点击Scrape抓取

Request interval:请求间隔

Page load delay:页面加载延迟

4、规律多页规则

点击“Edit metadata”，修改Start URL。规律多页Start URL这里可以写成https://www.xxxx?page=[1-3]或https://www.xxxx?start=[0-5:10]（表示0-5页20条/页）。

5、下载数据

Export data as CSV

上一篇下一篇

猜你喜欢

热点阅读