数据库、数据仓库、数据湖、数据集市、数据中台这些概念,我终于整明
随着互联网的快速发展,越来越多的人涌进互联网,通过浏览器、智能终端、各种设备,产生了海量的数据,同时也产生了很多数据的概念,如数据库、数据仓库、数据湖、数据集市、数据中台等,这些概念相互交错,互相关联。对于它们分别是什么,又怎么使用,彼此之间的关系又怎么样?今天一篇文章就能给你整明白。
数据库,本质上是一个二维关系存储系统,存储结构化数据,比如某学校的学生信息表、某年级的学生成绩表等。它因为使用简单,结构化程度高,极大的促进了互联网的发展。它包含操作性数据库和分析型数据库两类。
所谓操作型数据库,主要是针对一个“事务”型操作而言,用于支持日常业务,比如购买商品、点外卖、打滴滴等。
所谓分析型数据库,主要是对历史数据进行分析,比如分析某商品的销售量、某店的订单量、某师傅的车订单量等。
由于操作型数据库写多查少、数据动态变化、存储时间要求不高等特点,它注定与分析型数据库不会是同一个数据库,分析型数据库写少查多、数据基本稳定、存储时间长。随着我们对分析数据的要求变高,我们希望看到更多维度的分析,传统的分析型数据库的支持就变得很难了,比如我们想看淘宝某店家的披萨在什么情况下最好销售,这时候需要披萨信息表、订单销售表、消费者信息表、中国天气表等多个表联同起来,才能分析出在什么天气、什么地理位置、什么口味、什么价格的时候最好售卖,因此数据仓库应运而生。
数据仓库,本质上是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,是比数据库范围更大的库。所谓面向主题,它指的是数据仓库内的信息按照某个主题进行聚合,比如地区、成本、商品、收入、利润等等;所谓集成的,它指的是可以把不同数据库中的数据都汇聚在一起;所谓相对稳定的,它指的是数据仓库的数据不会像操作型数据库那样经常变化;所谓反映历史变化,它指的是数据仓库内的信息不只是反映企业当前情况,还可以记录分析从过去某一个时间点到现在的变化。
在数据仓库的发展及探索过程中,还出现了数据集市、商业智能BI的概念。所谓数据集市,它是一个小型的数据仓库,只关注某一个主题,比如只关注成本,那么它就会只收录成本相关的数据,数据来源可以是自己的源数据库,也可以从数据仓库中获取某一主题的数据;所谓商业智能,则是运营分析数据的进阶,通过数据仓库获取到了分析型数据后,BI人员会结合业务现况、市场现况、分析数据对当下的业务做一个判断,提供老板决策。
数据湖,它是一个比数据仓库更大、对于数据也没有任何限制的大型仓库,里面的数据像湖水一样可以自然流动,数据可以供存储、处理、分析。在数据湖中,存储的数据没有经过任何的处理,是直接从源系统导入的数据,它包含结构化数据、非结构化数据、半结构化数据,范围非常广,也是数据仓库的数据来源。此外,它还用于机器学习、预测分析、信息追踪等场景,提供海量的数据供科学家们进行模型训练、在某个领域做推荐引擎。数据仓库和数据湖的区别可见下表所示。
数据中台,本质上是服务于业务的数据分析系统,它从一出生开始就是为业务而生。数据仓库提供的是统计分析、单领域维度、被动分析、非实时分析,必然不能满足企业的多维度分析、主动分析、预测分析、实时分析、多元化分析等场景,因此数据中台应运而生。整个数据中台产品就是一个闭环的解决方案,不再是业务过程中的一环,它包含数据埋点、数据接入标准化、数据仓库抽象化、数据治理、数据服务五大模块,打通了人、物、场多个维度,更好的为前台去服务。此外在数据中台的建设中,企业组织文化也非常重要,它需要联动各个业务线去接入这套系统,标准化治理与管理,但在数据仓库的建设过程是不需要关注这一层次的。因此数据中台是数据仓库的又一次质的飞跃。
数据库、数据湖、数据仓库、数据集市、数据中台都是我们在不同阶段结合不同需求对数据的处理解决方案,并不是说哪一个方案就过时了,每一个方案到现在都有它存在使用的场景,我们结合自己的诉求进行对应的建设即可~