Python学习笔记(3)采集列表数据
一、操作步骤
采集列表时,可以看到多条结构相同的信息,我们把一条信息称为一个样例,例如,表格中的每一行就是一个样例,又如,京东搜索列表中的每个商品也是一个样例。具有两个样例以上的列表网页,做样例复制就能把整个列表都采集下来。下面京东列表页为案例,操作步骤下:


二、案例规则+操作步骤
- 样本网址:<u style="word-wrap: break-word;">https://search.jd.com/Search?keyword=%E5%B0%8F%E7%B1%B3&enc=utf-8&pvid=6a1e1a162bff4eaba55dfcdef7029257</u>
- 采集内容:每一个商品的标题,价格,评论数,店铺名称
第一步:打开网页
1.1,打开GS爬虫浏览器,输入上述样本网址并Enter,加载出网页后再点击网址输入栏后面的“定义规则”按钮,可以看到一个浮窗显示出来,称为工作台,在上面定义规则;
1.2,在工作台中输入主题名,可以点击“查重”看看名字是否被占用。

第二步:标注信息
2.1,在浏览器窗口双击要采集的内容,在弹出小窗中输入标签名,打勾确认或Enter,即完成了一个标注操作。首次标注还要输入整理箱名称。这也是标签与网页信息建立映射关系的过程。
2.2,重复上一步骤,对其他信息进行标注。

第三步:样例复制
3.1,点击第一个样例里的任一内容,可以看到,在下面的DOM窗口,光标自动定位到了一个节点,右击这个节点,选择 样例复制映射→第一个。

3.2,然后,点击第二个样例里的任一内容,同样,在下面的DOM窗口,光标自动定位到了一个节点,右击这个节点,选择 样例复制映射→第二个。

这样就完成了样例复制映射。
注意:有时样例复制的操作没有错误,但是测试后,只采集到一条数据。问题多半出在整理箱的定位方式上。整理箱默认的定位方式是“偏ID”,可是京东列表网页的整理箱定位方式一般要选”绝对定位“。

第四步:存规则,抓数据
4.1,规则测试成功后,点击“存规则”;
4.2,点击“爬数据”,弹出DS打数机,开始抓取数据。
4.3,采集成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中,可更改存储路径

如果你依然在编程的世界里迷茫,可以加入我们的Python学习扣qun:784758214,看看前辈们是如何学习的!交流经验!自己是一名高级python开发工程师,从基础的python脚本到web开发、爬虫、django、数据挖掘等,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!分享一些学习的方法和需要注意的小细节,点击加入我们的 python学习者聚集地