2019-01-02 09|数据采集如何用八爪鱼采集微博上的D&
2019-01-02 本文已影响17人
闲庭漫步的羊
八爪鱼的采菊分为三部,
一、输入网页
二、设计流程(可用自带的也可以用自定义的自定义,不用设计流程,自带的需要设计过程)
三、启动采集。
八爪鱼的流程步骤有两类,可以分为基本步骤和高级步骤。
基本步骤就是最常用的步骤,每次采集都会用到一般分为四步,分别是打开网页,点击元素,循环翻页,提取数据。
高级步骤是辅助步骤,可以帮我们更好的对数据进行提取,比如我们想要某个关键词的数据,就需要在网页中输入对应的文字,有时原网页的系统会提示需要输入验证码,我们可以采用验证码识别的模块帮我们解决,有时候我们需要用下拉选项帮我们筛选想要的数据,或者某些判断条件下,比如存在某个关键词触发的采集等这些操作,可以精细化的提取想象的内容。
下面我们开始介绍基本步骤,
1、打开网页
所有采集默认第一项都是打开网页,所以新建任务之后系统提示输入网址会自动建立一个打开网页的流程。
2、点击元素
这里的元素定义比较广泛,它可以是某个按钮某个链接某个图片或者文字使用这个步骤是你在搜索或者提交某个请求,当你点击元素后。
3、循环翻页
4、提取数据
建议:
1、尽量使用用户操作视角进行模拟的方式进行操作
2、使用流程图方便管理和调整。
最重要的是多加练习。