如何免费雇一个机器人爬虫采集数据?
需要背景
目前办公工作中,很大一部分时间都花在了数据的收集、搬运、统计和报告过程中,其中数据采集工作更是决定了工作的成败。这里以网页数据采集为例展示使用一个RPA软件Uipath的最基础功能来实现免费雇一个机器人帮自己进行数据采集。
相关知识
RPA是机器人流程自动化 Robotic Process Automation,可以简单地理解为让机器人帮自己工作,这里的机器人也不一定有物理形态或物理实体。
材料准备
这里尝试使用Uipath社区版,免费,基本上可以满足个人和小型团队使用。可以点击下载试用:Uipath官网。
详细步骤
1.下载:填写试用申请后,在邮箱中会收到一封下载链接邮件,下载后得到安装文件UiPathStudioSetup.exe。
填写试用申请
-
安装:选择社区版安装,这里我们要确保我们的电脑上安装了.NET Framework 4.6以上的版本,因为UiPath是一款基于.NET开发的软件,最新版本的UiPath工具需要4.6以上的.NET Framework支持。
2.1 选择社区版Community Edition
2.2 选择开发者Studio
2.3 选择更新较少的Stable
安装完成后,会有两个软件:UiPath Studio用于开发和调试,UiPath Robot用于用户使用。
UiPath产品由三部分组成:
- UiPath studio(一种高级流程设计工具,用来制作workflow);
- UiPath robot(用来运行UiPath studio生成的workflow);
- UiPath orchestrator(基于UiPath studio和UiPath robot的一种网络应用,用来管理多个机器人进行协调工作)。
-
选择语言:将语言修改为中文简体方便非开发人员使用,并重启。
选择中文简体 -
新建项目。
新建一个空白项目
填写流程的名称
打开主工作流 -
安装Uipath插件:从网页上抓取数据需要安装扩展程序即插件,这里以Chrome为例,详细参见插件安装教程。
Chrome扩展程序安装
-
开始数据抓取
点击数据抓取 -
打开网页:使用Chrome浏览器打开东方财富网上科创板企业申报情况网页。
-
选择数据:点击“下一个”后,将鼠标光标悬停在图示中“发行人全称处”点击,并选择提取整个表格数据;预览数据后,点击完成。
选择元素,点击下一步
将鼠标光标悬停选择
选择是从整个表格提取数据
提取数据预览 -
设置翻页:由于表格有多页,需要将网页下拉到表格底部,找到"下一页"或箭头;在弹出框中选择“是”后,点击“下一页”或箭头。
正常情况下会直接自动进入到下一步;如果出现警示框,需要重新再做一遍,否则数据可能采集不完整。
-
使用Excel接收数据:在C:\下新建一个Excel文件Data.xslx(可以根据自己需要设置路径和名称)。
-
导出数据:在“数据抓取”容器中,拖入“写入范围”,并根据示例填写属性内容。
写入数据 -
调试:点击F5进行调试,执行完成后,打开Data.xslx可以看到已经将所需的数据全部采集完成了。
采集结果示例 -
发布:在UiPath Studio中将确定下来的流程进行发布,发布后,在UiPath Robot中会出现DataScraping可用流程。
UiPath Studio
UiPath Robot -
使用:在UiPath Robot中双击DataScraping就可以开始数据采集了。
这里介绍的仅是Uipath比较基础的功能和操作,作者也做陆续学习中。更多高级功能和进一步的学习,可以注册成为RPA学院会员获得培训和认证。
其他文章: