第八章 外部数据和数据仓库
2018-12-17 本文已影响8人
晨磊的微博
[TOC]
第八章 外部数据和数据仓库
8.0 概述
- 外部数据:产生于企业外部系统的数据(非企业内部系统)
- 外部数据典型来源:商报、新闻、研究报告、分析报告等
- 外部数据不能自由导入,需要统一进入仓库
- 原因1:自由导入容易丢失源信息
- 原因2:自由导入数据难以再次使用
8.1 数据仓库中的外部数据
外部数据:
- 出现没有固定频率,不便永久监控
- 完全没有规则,必须格式化
- 不可预测,任何时候可能来自于任何数据源
8.2 元数据和外部数据
元数据:外部数据的元数据同样很重要
通知数据:当数据进入数据仓库和元数据时,检查感兴趣的人,并给感兴趣的人发送通知
8.3 存储外部数据
- 一种就是都存到数据仓库
- 另一种是数仓只存储外部数据的位置
8.4 外部数据的不同部件
- 意思是说外部数据也有高频和低频、重要和不重要之分,合理存储它们,方便使用
8.5 建模与外部数据
- 数据模型的作用根据设计塑造环境
- 但外部数据不可塑,不能使用数据模型对外部数据进行改造
- 只能创建一个与现有内部数据兼容的数据子集
8.6 辅助报告
一句话,周期性数据可定时导入数仓,作为辅助报告使用
8.7 外部数据存档
一句话,所有信息都应该有生命周期,因此外部数据也需要删除或存档
8.8 内部数据与外部数据比较
- 与内部数据的比较是外部数据最有用的一个功能
- 但需要找到公共主键(也就是要能对应上)
8.9 小结
- 什么是外部数据及来源
- 外部数据进入仓库需要注意的地方
- 外部数据的不同与作用