数据挖掘第三讲

2018-06-25  本文已影响0人  阿莫米德

<h1/>数据挖掘第三讲</h1>

什么是ETL,ETL包括哪些主要步骤?

数据的抽取(Extract)、转换(Transform)、装载(Load)的过程

执行ETL需要考虑哪些原则?

数据质量问题包括哪些,由什么原因导致?

  1. 正确性(Accuracy):数据是否正确体现是否有现实或可证实的来源(源系统
  2. 不受控制的更改,而这种更改不能及时的传播到受影响的系统)
  3. 完整性(Integrity):数据之间的参照完整性是否存在或一致(缺少参照完整性检查低劣的源系统设计)
  4. 一致性(Consistency):数据是否被一致的定义或理解
  5. 完备性(Completeness):所有需要的数据是否都存在
  6. 有效性(Validity):数据是否在企业定义的可接受的范围之内
  7. 时效性(Timeliness):数据在需要的时间是否有效
  8. 可获取性(Accessbility):数据是否易于获取、易于理解和易于使用(源系统与数据仓库系统的数据组织方式完全不同)

数据质量原因

ETL的常见问题包括哪些?

  1. 字符集问题
  2. 缓慢变化维处理
  3. 增量、实时同步的处理
  4. 错误数据的检测
  5. 变化数据的捕获
  6. 抽取异常中止的处理

数据仓库与数据库的区别

数据仓库 数据库
分析型数据环境 操作型数据环境
面向空间分析 面向业务,日常事务处理
集成的综合数据 主要是明细数据
历史数据(5-10年) 关心当前数据
定期加载,之后很少更新 实时更新
数据驱动的开发周期 需求驱动的开发周期

数据仓库有哪些特性?

是一个面向主题的、集成的、非易失的(不可修改)且随时间变化的数据集合,用来支持管理人员的决策

建立数据仓库要考虑哪些问题?

  1. 主题域(针对特定目标,由业务导向,按需确定的有针对性的方案)
  2. 粒度层次
    • 是指数据仓库中数据单位中保存的数据的细分和综合程度级别
    • 粒度越小,细节越多,综合程度就越低
    • 数据仓库可能会设置双重粒度,低粒度满足细节查询,高粒度用于分析
  3. 分割策略(把数据分散到各自的物理单元中去,以便能分别处理,提高效率)
  4. 数据组织形式
    • 简单堆积
    • 轮转综合:按照一定格式进行累加。第1天,第2天,第1月,第1年。
    • 简单直接文件:按照一定间隔,几乎是直接把操作型数据拖入数据仓库
    • 连续:把新的数据追加到原有数据中(第1天至今,2月至今)
  5. 数据追加策略(变化了的数据如何捕获)
    • 时标法:加标识
    • DELTA法:对更新作记录
    • 前后映象法:两次快照的对比
    • 日志法:利用DBMS的日志,需改进
  6. 体系化环境
    • 是在一个企业或组织内部,由各面向应用的OLTP数据库及各级面向主题的数据仓库所组成的完整的数据环境

什么是数据维度,针对数据维度有哪些操作?

星型模式和雪花模式的异同有哪些?

数据分析模型有哪些?


以上都是基于关系型数据库

NoSQL数据模型有哪些?与SQL模型相比,有什么区别和联系,各有什么优劣?

  1. 键值对模型
  2. 文档模型(结构可以相似不必相同)
  3. 列族模型
  4. 图模型

主要区别

  1. SQL数据存在特定结构的表中;而NoSQL则更加灵活和可扩展,存储方式可以省是JSON文档、哈希表或者其他方式。
  2. 在SQL中,必须定义好表和字段结构后才能添加数据,虽然之后能更新,但是如果更改量大就比较麻烦。在nosql中,可以随时以任何结构添加而不需要定义表结构。
  3. SQL中有外键这个定义,不允许删除已经被使用的外部数据,以保证数据完整性。但noSQL中没有这个概念,可以随时删除。
  4. 事务的概念。sql中更新多张表的数据,是在所有命令执行完之后统一提交事物,但nosql中每一个操作都是原子级的。

SQL:

NOSQL:

上一篇 下一篇

猜你喜欢

热点阅读