爬虫—Web Scraper(一)
跟大家分享的是web scraper爬虫工具使用方法。
目录
1.Web Scraper插件安装
2.上手体验
3.抓取的基本步骤
4.规律多页规则
5.下载数据
1、Web Scraper插件安装:
Google浏览器扩展程序中搜素“Web Scraper”安装即可。
2、上手体验
Web Scraper-->Creater New sitemap--> Import sitemap-->sitemap JSON 区域输入神秘代码-->输入站点名(自定义)并导入。
神秘代码:
{"_id":"test","startUrl":"https://www.zhihu.com/people/chen-da-xin-84/followers?page=2","selectors":[{"parentSelectors":["_root"],"type":"SelectorText","multiple":true,"id":"Username","selector":"div.UserItem-title a.UserLink-link","regex":"","delay":"500"}]}
3、抓取的基本步骤
使用web scraper插件抓取的基本步骤为:
- 创建一个站点Create sitemap
- 新增选择器Add new selector
- 点击Scrape抓取
具体操作步骤如下:
步骤一:创建一个新的站点“Create sitemap”
打开控制台—选择web scraper插件—选择Create new sitemap—选择Create sitemap;
在Sitemap name中给站点地图命名,在Start URL中输入站点名(自定义)和网址(目标地址),点击Create Sitemap按钮,就创建好了一个站点地图。
步骤二:增加选择器,点击“Add New selector”;
选择器的配置:
1. Type选择Text文本形
2.勾选Multiple按钮,表示本页中需要抓取多个元素
3.Delay填写500
4.点击Selector的select按钮直接用鼠标选网页上的元素,绝色代码可采集的数据,点击后为红色锁定状态
步骤三:点击Scrape抓取
Request interval:请求间隔
Page load delay:页面加载延迟
4、规律多页规则
点击“Edit metadata”,修改Start URL。规律多页Start URL这里可以写成https://www.xxxx?page=[1-3]或https://www.xxxx?start=[0-5:10](表示0-5页20条/页)。
5、下载数据
Export data as CSV