2.4 结构体选择器Elements --webscraper操
2019-12-02 本文已影响0人
niujw
例子:京东iphone手机价格
image.png ]记得我们在2.1留下的问题吗 如何选择多字段数据下载
比如说我们想要看京东上卖的一款手机iphone pro 想把店铺,商品名称还有价格都下载下来。这里要新引入一个概念结构体,在网页中一个结构体中包含了很多元素比如下图包含了该商品的价格,图片,名称,店铺,价格等等 结构体
外面的大框属于父selector, 里面的各个小元素属于子selector,我们想一一对应取出各个小元素,就要先构建一个父级selector然后构建子级selector
结构体.png
步骤
1 打开插件
2 创建sitemap
3 选择合适的选择器(selector)
4 爬取数据
5 下载CSV数据
详解
这里还是只看关键的第三步
- 1首先先建立一个父级selector
父级selector
注意 这里选择父级selector时要点击大框的空白处,多点几次就能选中,多尝试 - 2 建立子级selector
注意:这里我们建立子级seletor时,因为我们父级已经选中多条数据,所以这里Mutiple选项 我们就不再选择多条数据了,选择parentSelectors 时选中我们的父级选项,下面展示了 增加子selector商品名称的示例,你们自行在父级下接着增加价格和店铺数据就可以了
子级seletor
sitemap =>selector graph 看一下我们的采集结构,很清晰
seletor graph
接下来 抓取数据下载数据 最终看一下数据结构
数据结构
总结
当我们要抓取数据多个字段数据时,一般都会选择先建立父级selector然后建立子级selector。
父级selector并不会取到确切的数据,必须建立子级selector(text, link)
问题
有些网站是带翻页的,如何翻页获取数据?