大数据来了数仓该怎么建设
最近两年,大数据是一个很火的名词。最近我也在思考,作为一个数仓工作者,如何取迎接大数据的时代呢?
首先、我们来看看它们的产出物
产出物过去的数据仓库最终的产物通常是业务报表。这些报表是业务部门按照工作需要提出的报表模型,数据仓库人员按照报表模型向报表中填充数据。这些报表来自某一个业务单位的一个具体需求,他的报表只能解决他所在岗位面临的问题。
大数据的产物多种多样。它有可能是分析报表,也可能是分析意见,因为大数据是为了解决某个问题而进行的工作。例如分析出超市货品如何摆放更加合理,经过大数据分析结论例如:将婴儿尿不湿与啤酒放在一起,可以提高啤酒的产量。
在大数据时代来临之后,正在规划的数据仓库不仅仅能够出业务人员提出的报表需求,而且还需能够进行数据挖掘和分析工作,产出对企业更有价值的问题解决方案。
其次、我们看看它们的工作模式
工作模式过去的数据仓库通常由报表提供者整理出想要的报表和报表中每一条数据的来源以及计算方式,通常数仓工作人员仅仅需要调查提出者需求想法,弄明白他的目的,然后从数据仓库中抽取数据形成报告。
大数据的工作模式是一个探索过程,也是一个艰辛的过程,因为面对的不仅是报表需求,还要分析找到问题背后的原因,这类任务设计的范围太宽。通常有两种工作方式,第一、大数据工作者通过模型对数据进行分析找出潜伏在数据中可能是问题原因的信息,然后组织各个业务单位进行评审。第二、大数据工作者会同各个业务单位进行商讨分析,整理原因,并收集各个渠道的数据,最后建模分析得出结果。
在大数据时代来临之后工作者的工作范围不仅仅是了解某一个特定岗位业务并为之提供报表服务,还需要深入了解整个公司甚至整个行业的情况,掌握数据挖掘和分析的方法,通过大数据发现企业数据埋藏的巨大宝藏。
第三、我们看看它们的数据类型
数据类型过去的数据仓库通常数据来自企业的各个操作型的业务系统。一个人的基本信息、订单信息、亲友信息可能存放在不同的业务系统中,在将这些数据整合、集成然后放入数据仓库。
大数据的包涵的数据类型非常各式各样,因为数据来源非常广泛,包括企业的操作型业务系统的数据和企业日志,还包括来自互联网上的非结构化的数据。
大数据时代来临了数据仓库建设不应该限制数据范围,应从各个渠道收集相关数据,提高数据覆盖的范围,从而掌握企业不具备的信息。
小结
通过对以往的数据仓库建设和大数据进行对比,发现大数据时代来临对数据仓库的建设提出了更高的要求。数据仓库建设应该将眼界放宽,以开放的姿态去拥抱大数据时代来领。