大师兄的数据分析学习笔记(一):关于数据分析
2022-03-25 本文已影响0人
superkmi
一、关于数据分析
1. 什么是数据分析
- 数据分析就是利用统计与概率的方法,在数据中提取有用的信息,并进行总结与概括的过程。
2. 数据分析的一般流程
- 数据分析
(1) 数据获取
(2) 探索分析与可视化
- 数据建模与挖掘
(3) 数据预处理
(4) 分析模型
(5) 模型评估
3. 分析工具
- 使用Python做数据分析涉及以下包:
包 | 作用 |
---|---|
numpy | 定义了更高效快速的数据结构。 |
scipy | 基于numpy数据结构实现数据科学计算。 |
matplotlib / pyecharts | 实现数据可视化。 |
pandas | 基于numpy提供数据模型和操作工具。 |
scikit-learn | 提供数据挖掘算法。 |
keras | 提供复杂数据模型和深度神经网络工具。 |
二、数据获取
- 数据获取常用手段如下:
1. 数据仓库DW
- 数据仓库就是业务数据汇总处理。
- 特点1:记录了全部的事实。
- 特点2:可以方便地以不同维度抽取和整理数据。(数据集市-DM)
- 数据仓库和业务型数据库的区别如下:
- 区别1:数据仓库面向主题存储;数据库面向业务存储。
- 区别2:数据仓库面向分析(Online Analysis Processing);数据库面向应用(Online Transaction Processing)。
- 区别3:数据仓库可能有比较大的冗余,变化大,数据量大; 数据库组织规范。
2. 检测与抓取
- 监测是使用监测设备或算法直接获取数据。
- 抓取是直接通过获取网页内容进行解析与分析的过程。
- Python的抓取工具可以参考大师兄的Python学习笔记(二十): 爬虫(一)。
3. 填写、日志、埋点
- 填写就是需要用户填写的信息。
- 埋点指在App或网页中针对特定流程收集一定的信息,用来跟踪App或网页服务被使用的情况,埋点大致可以分为两种:
第一种:页面统计。
第二种:统计操作行为。
- 操作日志和数据仓库有共同的作用,只是更精简,以文本形式记录,通常也需要被汇总到数据仓库中。
4. 计算
- 计算就是通过已有数据计算生成衍生数据。