大师兄的信息化管理学习笔记(六):数据库与商业智能(二)
2022-12-29 本文已影响0人
superkmi
大师兄的信息化管理学习笔记(五):数据库与商业智能(一)
大师兄的信息化管理学习笔记(七):中间件技术
三、联系分析处理
- 联机分析处理(OLAP)是使分析人员、管理人员或执行人员能够从多角度对信息快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
- OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求。
-
OLAP的技术核心是维度概念。
1.OLAP和OLTP
- 联机分析处理(OLAP)和联机事务处理(OLTP)的区别在于,OLAP侧重数据分析,OLTP侧重对数据库进行增删改和日常事务操作。
- | OLTP | OLAP |
---|---|---|
主要应用 | 数据库 | 数据仓库 |
功能 | 日常操作处理 | 决策分析 |
用户 | 操作人员、底层管理人员 | 决策人员、高级管理人员 |
模型设计 | 面向应用 | 面向主题 |
时间要求 | 实时读写要求高 | 实时读写要求低 |
分析要求 | 低、简单 | 高、复杂 |
数据处理 | 当前的、最新的、细节的、二维的、分立的 | 历史的、聚集的、多维的、集成的、统一的 |
数据规模 | 100MB - 1GB | 100GB - TB |
每次读取 | 数百条数据 | 数百万条数据 |
2. OLAP的分类
类别 | 描述 |
---|---|
ROLAP(Relational OLAP) | - 基于关系型数据库的OLAP实现。 - 以关系型数据库为核心,以关系型结构进行多维数据的表示和存储。 |
MOLAP(Multidimensional OLAP) | - 多维数据组织的OLAP实现 |
HOLAP(Hybrid OLAP) | - 基于混合数据组织的OLAP实现。 - 如底层是关系型,高层是多维矩阵型。 - 这种方式有更好的灵活性。 |
四、数据挖掘与知识发现
- 数据挖掘(Data Mining)是从存放在数据库,数据仓库或其它信息库中的大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模型的过程。
- 知识发现(Knowledge Discovery in Database)是数据挖掘的一种更广泛的说法,即从各种媒体表示的信息中心,根据不同的需求获取知识。
- 数据挖掘的方法如下:
方法 | 描述 |
---|---|
关联规则(Association) | 反应一个事件和其他事件之间依赖或关联的支持,目的是发现哪些事情总在一起发生。 |
序列(Sequence) | 关注时间之后的关联关系,更关注关联关系中事件发生的先后顺序。 |
聚类(Clustering) | 自动寻找并建立分组规则的方法,通过判断样本之间的相似性,把相似样本划分在一个簇中。 |
分类(Classification) | 首先从已经分好类的训练集上建立一个分类模型,再将该模型用于对没有分类的数据进行分类。 |
回归(Regression) | 与分类类似,但输出结果是连续型的数值。 |
时间序列(Time Serise) | 通过时间序列型数据,由历史的和当前的数据取预测未来的情况,实际上是一种以时间为关键属性的回归。 |
五、实施商业智能的步骤
- 需求分析
- 数据仓库建模
- 数据抽取
- 建立商业只能分析报表
- 用户培训和数据模拟测试
- 系统改进和完善
六、ETL
- ETL(Extract-Transform-Load)指将数据从来源端经过至目的端的过程。
- Extract抽取
- Transform转换
-
Load加载
七、元数据
- 元数据(Metadata)是关于数据的数据,主要用来描述数据属性(property)信息,用来支持如指示存储位置、历史数据、资源查找和文件记录等。
- 数据仓库中的元数据包括:
- 数据仓库表的结构
- 数据仓库标的属性
- 数据仓库的源数据
- 从记录系统到数据仓库的映射
- 数据模型的规格说明
- 抽取日志和访问数据的公用例行程序等
八、数据预处理
- 数据预处理是指在主要处理前对数据进行的处理:
步骤 | 描述 |
---|---|
数据清洗 | 通过填写缺失的值、平滑噪声数据、清楚重复数据、识别或删除离群点并解决不一致性来清理数据。 |
数据集成 | 将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。 |
数据变换 | 通过平滑聚类,数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。 |
数据规约 | 缩小数据取值范围,使其更适合于数据挖掘算法,能够得到和原始数据相同的分析结果。尽可能保持数据原貌,最大限度精简舒居量。 |