Web Scraper 入门教程(第7课)
Web Scraper 是谷歌 Chrome 浏览器插件,可自动化提取网页数据,实现不敲代码,指哪爬哪的目标,属于居家出行杀人越货之必备神器。
下面开始第 7 课,选择器(Selectors)。
一、 定义 及 分类
选择器顾名思义用于选择要抓取的网页元素。
创建完 Sitemap 后接下来要做的就是为其添加选择器。
选择器以树状结构添加,Web Scraper 按此次序抓取网页。
选择器大致分为 3 类:
1)数据提取选择器:用于提取数据。
2)链接选择器:用于站点导航,便于同时从多个页面提取数据。
3)元素选择器:用于将网页元素分组,方便后续数据提取。
进一步分类如下图,注意标蓝的两个选择器,它们同时属于两个分类:
二、设定选项
选择器的常见设置如下图
1)ID(名称):用于为选择器命名。规则如下:
1、最少 3 个字符;
2、不能以 _ 开头,不能包含 . 及$。
当然如果采用我的第 4 课第二部分命名方案可完美规避记忆此劳什子规则。
2)Tyep(类型):切换选择器类型,从上面脑图中列出来的选择。
3)Selector(选择器):用于选择元素,后面三个按钮:
1、「Select(选择)」:点击后可在页面选择元素。
2、「Element preview(元素预览)」:点击后可预览选择效果。
3、「Data preview(数据预览)」:点击后可预览按之前选择可抓取到的数据。
4)Multiple(多选):选中后会从页面中所有符合要求的元素提取数据。
5)Regex(正则表达式):神器,随后我们会花 1 节课的时间来讲它。
6)Delay(延迟):抓取数据前的延时,通常设置 2000 ms。此选项存在有 3 个原因:
1、抓取数据是要占用人家服务器流量的,抓取数据过于频繁会影响正常用户使用,做人还是要厚道。
2、有些网站有反爬虫机制,监测到非正常访问(0.1秒一次点击这特么是人能做出来的吗?)会将此 IP 封掉或关小黑屋。
3、网页加载是分步逐步完成的,有时网络速度比较慢,你需要的元素还没加载出来就抓取,自然结果会受影响。
7)Parent Selectors(母元素):还记得第 1 课第二部分那张选择器树形图不,在讲到 Element 及 Link 选择器的时候我们会用到它。
三、互动环节
本节课内容就讲到这里,从下节课开始我们会逐项讲解各常用选择器的使用方法,精彩在后面,欢迎继续关注。
留个课后作业,第 5 课我们导入了一份 Sitemap,在此基础上我们按下图做下尝试:
下课。
【福利】
1、回复wsdd,获取我翻译的《Web Scraper官方文档》。
2、回复wssm,可获得各大常见网站 Sitemap 示例,此列表还会持续更新。
3、为方便大家学习交流爬虫知识 。我建了个在线文档 「爬虫学习材料梳理」,网址:
https://shimo.im/docs/qc5HJYODsNQJcL6k/
可收藏此链接直达课程 ,并了解最新信息 。
4、我组建了一个免费微信群共同打磨爬虫技能,加我微信 wincatcher 拉你加入,一起切磋,互开脑洞。
可能对以下文章也感兴趣: