大数据IT数据仓库

浅谈数据仓库(DW & BI)(一)

2019-06-17  本文已影响4人  小杨_1858

前一段时间,有描述过数据仓库的一些概念,但是还没说完,慢慢补充自己的一些想法吧。行文有点乱,见谅。

数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 ——百度百科

作为目前算是一个需求管理与分析岗位上的人,前几天在看Inmon的《Building the Data Warehouse》(《数据仓库》)时,看到一句话差点看哭了——BI系统(商业智能)的使用人员:“给我看一下我说我想要的东西,然后我告诉你我真正想要的是什么”(“Ah! Now that I seewhat the possibilities are, I can tell you what I really want to see. But untilI know what the possibilities are I cannot describe to you what I want.”)这每天都在发生,我们一次又一次需求沟通确认与调整,但是完成之后发现需求又变化了,第一次确认的需求可能与最终需求有着极大的差异性。

这应该是一个信息系统,不论是数据仓库还是其他产品,都存在的问题,但是在数据仓库领域是更为常见、合理与广泛,因为数据的透析与分析,其实基于使用者的一两个简单的想法,然后在获取数据结果之后,想法会蔓延、改变或者被否定,这是数据分析(包含部分运营、风险管理)用户发现探索模式下必然会发生的。所以我认为我司的工单系统面对经验分析类的开发需求,应该是可以做一些调整与优化,以提升生产效率,减少管理资源浪费,当然也要考虑频繁变更需求的一些风险。

数据仓库的概念在1990年由William H. (Bill) Inmon提出,因此他也被称为数据仓库之父。数据仓库的诞生源自于数据的分析需求,原先是在操作层(生产系统数据库)进行数据的分析和整合,但是分析需求变多以后,对生产系统产生性能上的影响。因此产生了抽取程序(即我们目前所说的etl),但是因缺乏有效、规范、统一的管理,演化成为了蜘蛛网:

蜘蛛网带来的问题:

1、 数据的可信性(不同部门、不同开发对于同样需求,由于算法、口径、源数据种种原因,导致双方报表的结果大相径庭,经济效益低)

2、 生产率低(重复性抽取、冗余的开发导致生效效率低,成本耗费高)

3、 数据到信息转化率低

为解决这样一个新的信息系统的种种问题,演化出了数据仓库的概念,来展现数据价值,提升生产效率。

目前有两类数据仓库建设的体系,一类就是Inmon提出的,一类是由Kimball提出的维度建模,这篇文章就先谈Inmon的建设思路。

  Inmon提出构建一个集成的、基于主题的逐步完善的数据仓库,其设计理念是自上而下的。(我大学学的《数据仓库与数据挖掘技术》也是基本是这个模式,这个模式对于我这样的理想主义者是很fancy的,简直想把财务、ERP、工程项目、供应链、销售等各类数据都放到核心数据仓库中,以实现统一支撑管理。但是代价特别高昂,不管是建设周期还是建设难度都比较高,比较适用于富有的、主营业务基本不变且比较传统的大型公司,如电信、银行、保险、汽车等行业,比较不适合快速迭代反馈的互联网公司。)

从数据源到数据主仓库,再到数据集市,再到个人使用者的一种流式开发,核心工作在于2点吧。一是源数据到主仓库的隔离层数据(ODS/Operational Data Store),要实现异构数据的校验和调整,比如不同系统的同类型数据单位的统一,字段值的类型和范围的校验;二是主仓库中主题的设计和开发,需要根据业务发展、公司战略等情况,确认合适的主题和域,构建ER关系模型,DIS建模及开发物理层,再根据实际使用需求的适当调整,从需求的讨论分析到最终系统实现之间耗费大量时间、人力,但是一旦建设完毕比较有用、稳健,且能够解决一些潜在未知需求的。

数据仓库的建设比较贴近业务,但是为了发挥更好的作用,仓库还要考虑管理成本、开发成本,以及仓库的性能问题,以及后续面对使用者的推广和培训,因此还有一些像索引建立、元数据管理、规范化(3NF)与反规范化、多重粒度、数据存储与存储介质、不同的ETL方法等等概念,下次再说,告辞!

部分内容参考自《数据仓库》一书,作者Inmon。


沉默是金 话唠是银

长按识别二维码关注

或搜索ID im-wudi 添加关注

上一篇 下一篇

猜你喜欢

热点阅读