08. 如何自动化采集数据
2019-02-09 本文已影响0人
进击的原点
数据源
image.png一个数据的走势,是由多个维度影响的,要通过多源的数据采集,手机尽可能多的数据维度,同时保证数据的质量
开放数据源
行业的数据库
-
单位维度
image.png
政府、企业、高校
- 行业维度
交通、金融、能源等领域
爬虫抓取 - py、常用工具
网站,App
- py爬虫三个过程
- 使用 Requests 爬取网页信息
抓取网页信息,是 py 的 HTTP 库 - 使用 XPath 解析内容
XML Path,也就是 XML 路径语言,是一种用来确定 XML 文档中某部分位置的语言,常当做小型查询语言。可以通过元素和属性进行位置索引 - 使用 Pandas 保存数据
Pandas 是让数据分析工作变得更加简单的高级数据结构,保存爬取的数据,可以写入到 XLS 或者 MySQL 等数据库 - 其他无头模式: Selenium、PhantomJS、Puppteteer
- 使用 Requests 爬取网页信息
- 常用工具
- 火车采集器
可抓取、数据清洗、数据分析、挖掘和可视化等,网页中能看到的内容都可以通过采集规则进行抓取 - 八爪鱼
免费版:是内容采集规则,包括电商、生活服务、社交媒体、论坛类等网站
付费版:云采集,配置好采集任务,就交给八爪鱼采集,避免 IP 被封 - 集搜客
可视化操作,无需编程。无云采集功能
- 火车采集器
传感器
物理信息,图像、视频、速度、热度、压强等,基于特定设备
日志采集
统计用户的操作,在前端进行埋点,在后端进行脚本收集、统计,分析网站访问情况及使用承载瓶颈等。是运维人员重要工作之一。
记录了用户访问网站的全过程,那些人在什么时间通过什么渠道来过,执行了哪些操作,系统是否产生了错误,IP、HTTP 请求的时间,用户代理等0
-
通过 Web 服务器采集
Web:如 httpd、Nginx、Tomcat
企业自己的系统日志采集:Hadoop 的 Chukwa、Cloudera 的Flume、Facebook 的 Scribe 等 -
自定义采集用户行为
- JavaScript 代码监听用户行为
- AJAX 异步请求后台记录日志等
-
埋点是什么
在有需要的位置采集相应的信息进行上报- 页面访问情况
- 用户信息
- 设备信息
- 操作行为
- 时长等
- 页面访问情况
-
如何埋点
- 友盟
- Google Analysis
- Talkingdata
- 想看更深层的用操作需要自定义埋点