以后看大杂烩,味道好python社区

如何免费雇一个机器人爬虫采集数据?

2020-02-03  本文已影响0人  珊瑚札记

需要背景

目前办公工作中,很大一部分时间都花在了数据的收集、搬运、统计和报告过程中,其中数据采集工作更是决定了工作的成败。这里以网页数据采集为例展示使用一个RPA软件Uipath的最基础功能来实现免费雇一个机器人帮自己进行数据采集。

相关知识

RPA是机器人流程自动化 Robotic Process Automation,可以简单地理解为让机器人帮自己工作,这里的机器人也不一定有物理形态或物理实体。

材料准备

这里尝试使用Uipath社区版,免费,基本上可以满足个人和小型团队使用。可以点击下载试用:Uipath官网

详细步骤

1.下载:填写试用申请后,在邮箱中会收到一封下载链接邮件,下载后得到安装文件UiPathStudioSetup.exe。


填写试用申请
  1. 安装:选择社区版安装,这里我们要确保我们的电脑上安装了.NET Framework 4.6以上的版本,因为UiPath是一款基于.NET开发的软件,最新版本的UiPath工具需要4.6以上的.NET Framework支持。


    2.1 选择社区版Community Edition
    2.2 选择开发者Studio
    2.3 选择更新较少的Stable

    安装完成后,会有两个软件:UiPath Studio用于开发和调试,UiPath Robot用于用户使用。


UiPath产品由三部分组成:

  • UiPath studio(一种高级流程设计工具,用来制作workflow);
  • UiPath robot(用来运行UiPath studio生成的workflow);
  • UiPath orchestrator(基于UiPath studio和UiPath robot的一种网络应用,用来管理多个机器人进行协调工作)。
  1. 选择语言:将语言修改为中文简体方便非开发人员使用,并重启。


    选择中文简体
  2. 新建项目。


    新建一个空白项目
    填写流程的名称
    打开主工作流
  3. 安装Uipath插件:从网页上抓取数据需要安装扩展程序即插件,这里以Chrome为例,详细参见插件安装教程

    Chrome扩展程序安装
  4. 开始数据抓取


    点击数据抓取
  5. 打开网页:使用Chrome浏览器打开东方财富网上科创板企业申报情况网页。

  6. 选择数据:点击“下一个”后,将鼠标光标悬停在图示中“发行人全称处”点击,并选择提取整个表格数据;预览数据后,点击完成。


    选择元素,点击下一步
    将鼠标光标悬停选择
    选择是从整个表格提取数据
    提取数据预览
  7. 设置翻页:由于表格有多页,需要将网页下拉到表格底部,找到"下一页"或箭头;在弹出框中选择“是”后,点击“下一页”或箭头。




    正常情况下会直接自动进入到下一步;如果出现警示框,需要重新再做一遍,否则数据可能采集不完整。


  8. 使用Excel接收数据:在C:\下新建一个Excel文件Data.xslx(可以根据自己需要设置路径和名称)。

  9. 导出数据:在“数据抓取”容器中,拖入“写入范围”,并根据示例填写属性内容。


    写入数据
  10. 调试:点击F5进行调试,执行完成后,打开Data.xslx可以看到已经将所需的数据全部采集完成了。


    采集结果示例
  11. 发布:在UiPath Studio中将确定下来的流程进行发布,发布后,在UiPath Robot中会出现DataScraping可用流程。


    UiPath Studio
    UiPath Robot
  12. 使用:在UiPath Robot中双击DataScraping就可以开始数据采集了。



这里介绍的仅是Uipath比较基础的功能和操作,作者也做陆续学习中。更多高级功能和进一步的学习,可以注册成为RPA学院会员获得培训和认证。

其他文章:

  1. 使用UiPath机器人自动发送邮件
  2. 使用UiPath机器人采集网页信息并写到文本文件
  3. 使用UiPath流程图做一个小游戏
上一篇下一篇

猜你喜欢

热点阅读