08. 如何自动化采集数据

2019-02-09 本文已影响0人进击的原点

数据源

image.png

一个数据的走势，是由多个维度影响的，要通过多源的数据采集，手机尽可能多的数据维度，同时保证数据的质量

开放数据源

行业的数据库

单位维度

image.png

政府、企业、高校
行业维度
交通、金融、能源等领域

爬虫抓取 - py、常用工具

网站，App

py爬虫三个过程
- 使用 Requests 爬取网页信息
  抓取网页信息，是 py 的 HTTP 库
- 使用 XPath 解析内容
  XML Path，也就是 XML 路径语言，是一种用来确定 XML 文档中某部分位置的语言，常当做小型查询语言。可以通过元素和属性进行位置索引
- 使用 Pandas 保存数据
  Pandas 是让数据分析工作变得更加简单的高级数据结构，保存爬取的数据，可以写入到 XLS 或者 MySQL 等数据库
- 其他无头模式： Selenium、PhantomJS、Puppteteer
常用工具
- 火车采集器
  可抓取、数据清洗、数据分析、挖掘和可视化等，网页中能看到的内容都可以通过采集规则进行抓取
- 八爪鱼
  免费版：是内容采集规则，包括电商、生活服务、社交媒体、论坛类等网站
  付费版：云采集，配置好采集任务，就交给八爪鱼采集，避免 IP 被封
- 集搜客
  可视化操作，无需编程。无云采集功能

传感器

物理信息，图像、视频、速度、热度、压强等，基于特定设备

日志采集

统计用户的操作，在前端进行埋点，在后端进行脚本收集、统计，分析网站访问情况及使用承载瓶颈等。是运维人员重要工作之一。
记录了用户访问网站的全过程，那些人在什么时间通过什么渠道来过，执行了哪些操作，系统是否产生了错误，IP、HTTP 请求的时间，用户代理等0

通过 Web 服务器采集
Web：如 httpd、Nginx、Tomcat
企业自己的系统日志采集：Hadoop 的 Chukwa、Cloudera 的Flume、Facebook 的 Scribe 等
自定义采集用户行为
- JavaScript 代码监听用户行为
- AJAX 异步请求后台记录日志等
埋点是什么
在有需要的位置采集相应的信息进行上报
- 页面访问情况
  - 用户信息
  - 设备信息
- 操作行为
  - 时长等
如何埋点
- 友盟
- Google Analysis
- Talkingdata
- 想看更深层的用操作需要自定义埋点

上一篇下一篇

猜你喜欢

热点阅读