浅谈数据仓库（DW & BI）（一）

2019-06-17 本文已影响4人小杨_1858

前一段时间，有描述过数据仓库的一些概念，但是还没说完，慢慢补充自己的一些想法吧。行文有点乱，见谅。

数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。 ——百度百科

作为目前算是一个需求管理与分析岗位上的人，前几天在看Inmon的《Building the Data Warehouse》（《数据仓库》）时，看到一句话差点看哭了——BI系统（商业智能）的使用人员：“给我看一下我说我想要的东西，然后我告诉你我真正想要的是什么”（“Ah! Now that I seewhat the possibilities are, I can tell you what I really want to see. But untilI know what the possibilities are I cannot describe to you what I want.”）这每天都在发生，我们一次又一次需求沟通确认与调整，但是完成之后发现需求又变化了，第一次确认的需求可能与最终需求有着极大的差异性。

这应该是一个信息系统，不论是数据仓库还是其他产品，都存在的问题，但是在数据仓库领域是更为常见、合理与广泛，因为数据的透析与分析，其实基于使用者的一两个简单的想法，然后在获取数据结果之后，想法会蔓延、改变或者被否定，这是数据分析（包含部分运营、风险管理）用户发现探索模式下必然会发生的。所以我认为我司的工单系统面对经验分析类的开发需求，应该是可以做一些调整与优化，以提升生产效率，减少管理资源浪费，当然也要考虑频繁变更需求的一些风险。

数据仓库的概念在1990年由William H. (Bill) Inmon提出，因此他也被称为数据仓库之父。数据仓库的诞生源自于数据的分析需求，原先是在操作层（生产系统数据库）进行数据的分析和整合，但是分析需求变多以后，对生产系统产生性能上的影响。因此产生了抽取程序（即我们目前所说的etl），但是因缺乏有效、规范、统一的管理，演化成为了蜘蛛网：

蜘蛛网带来的问题：

1、数据的可信性（不同部门、不同开发对于同样需求，由于算法、口径、源数据种种原因，导致双方报表的结果大相径庭，经济效益低）

2、生产率低（重复性抽取、冗余的开发导致生效效率低，成本耗费高）

3、数据到信息转化率低

为解决这样一个新的信息系统的种种问题，演化出了数据仓库的概念，来展现数据价值，提升生产效率。

目前有两类数据仓库建设的体系，一类就是Inmon提出的，一类是由Kimball提出的维度建模，这篇文章就先谈Inmon的建设思路。

Inmon提出构建一个集成的、基于主题的逐步完善的数据仓库，其设计理念是自上而下的。（我大学学的《数据仓库与数据挖掘技术》也是基本是这个模式，这个模式对于我这样的理想主义者是很fancy的，简直想把财务、ERP、工程项目、供应链、销售等各类数据都放到核心数据仓库中，以实现统一支撑管理。但是代价特别高昂，不管是建设周期还是建设难度都比较高，比较适用于富有的、主营业务基本不变且比较传统的大型公司，如电信、银行、保险、汽车等行业，比较不适合快速迭代反馈的互联网公司。）

从数据源到数据主仓库，再到数据集市，再到个人使用者的一种流式开发，核心工作在于2点吧。一是源数据到主仓库的隔离层数据（ODS/Operational Data Store），要实现异构数据的校验和调整，比如不同系统的同类型数据单位的统一，字段值的类型和范围的校验；二是主仓库中主题的设计和开发，需要根据业务发展、公司战略等情况，确认合适的主题和域，构建ER关系模型，DIS建模及开发物理层，再根据实际使用需求的适当调整，从需求的讨论分析到最终系统实现之间耗费大量时间、人力，但是一旦建设完毕比较有用、稳健，且能够解决一些潜在未知需求的。

数据仓库的建设比较贴近业务，但是为了发挥更好的作用，仓库还要考虑管理成本、开发成本，以及仓库的性能问题，以及后续面对使用者的推广和培训，因此还有一些像索引建立、元数据管理、规范化（3NF）与反规范化、多重粒度、数据存储与存储介质、不同的ETL方法等等概念，下次再说，告辞！

部分内容参考自《数据仓库》一书，作者Inmon。

沉默是金话唠是银

长按识别二维码关注

或搜索ID im-wudi 添加关注

浅谈数据仓库（DW & BI）（一）

猜你喜欢

热点阅读