大师兄的信息化管理学习笔记(六):数据库与商业智能(二)

2022-12-29  本文已影响0人  superkmi

大师兄的信息化管理学习笔记(五):数据库与商业智能(一)
大师兄的信息化管理学习笔记(七):中间件技术

三、联系分析处理

1.OLAP和OLTP
- OLTP OLAP
主要应用 数据库 数据仓库
功能 日常操作处理 决策分析
用户 操作人员、底层管理人员 决策人员、高级管理人员
模型设计 面向应用 面向主题
时间要求 实时读写要求高 实时读写要求低
分析要求 低、简单 高、复杂
数据处理 当前的、最新的、细节的、二维的、分立的 历史的、聚集的、多维的、集成的、统一的
数据规模 100MB - 1GB 100GB - TB
每次读取 数百条数据 数百万条数据
2. OLAP的分类
类别 描述
ROLAP(Relational OLAP) - 基于关系型数据库的OLAP实现。
- 以关系型数据库为核心,以关系型结构进行多维数据的表示和存储。
MOLAP(Multidimensional OLAP) - 多维数据组织的OLAP实现
HOLAP(Hybrid OLAP) - 基于混合数据组织的OLAP实现。
- 如底层是关系型,高层是多维矩阵型。
- 这种方式有更好的灵活性。

四、数据挖掘与知识发现

方法 描述
关联规则(Association) 反应一个事件和其他事件之间依赖或关联的支持,目的是发现哪些事情总在一起发生。
序列(Sequence) 关注时间之后的关联关系,更关注关联关系中事件发生的先后顺序。
聚类(Clustering) 自动寻找并建立分组规则的方法,通过判断样本之间的相似性,把相似样本划分在一个簇中。
分类(Classification) 首先从已经分好类的训练集上建立一个分类模型,再将该模型用于对没有分类的数据进行分类。
回归(Regression) 与分类类似,但输出结果是连续型的数值。
时间序列(Time Serise) 通过时间序列型数据,由历史的和当前的数据取预测未来的情况,实际上是一种以时间为关键属性的回归。

五、实施商业智能的步骤

六、ETL

七、元数据

  • 数据仓库表的结构
  • 数据仓库标的属性
  • 数据仓库的源数据
  • 从记录系统到数据仓库的映射
  • 数据模型的规格说明
  • 抽取日志和访问数据的公用例行程序等

八、数据预处理

步骤 描述
数据清洗 通过填写缺失的值、平滑噪声数据、清楚重复数据、识别或删除离群点并解决不一致性来清理数据。
数据集成 将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。
数据变换 通过平滑聚类,数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。
数据规约 缩小数据取值范围,使其更适合于数据挖掘算法,能够得到和原始数据相同的分析结果。尽可能保持数据原貌,最大限度精简舒居量。
上一篇下一篇

猜你喜欢

热点阅读