数仓建设二期规划大纲
数仓一期建设并上线一段时间,领导安排我考虑一下数仓二期的建设。
一期简介
一期是按照标准数仓模型建设的,主要包括原始数据层、明细层、聚合层和应用层,由于当初是以系统为单位的建设导致,所以导致缺少公共数据的提炼和汇总,烟囱式重复建设,并且整体出现了指标口径不统一的问题,例如因为存在不同业务之间有数据交叉的场景,由于缺乏规范命名,都出现重名,搞的大家线下核对费了很多力气,同时一偶遇缺少数据工具支持,导致建模也非常麻烦。
二期主要的建设目标
基于以上问题,我确定了二期主要的建设目标,就是一期的问题,在现有基础上进一步明确分层和组成,标准化整个数据建模流程,并且提供一套完整的工具平台,通过规范化定义,做到数据口径统一,同时也要降低数据之间横向的复杂交互,保持数据流向的清晰、简洁。
针对各个分层,进行了重新调整、优化以及合并,目前的数据底层主要负责还原原始数据,隔离上层,并且维度补充,对上的数据统一口径。另外也单独设计了业务集市层,用来满足业务分析。上面还有主题数仓和应用层设计,这里就不一一介绍了。
平台的技术架构设计
在平台的技术架构设计方面,除了基础服务层的技术选型符合当前数据量需求外,平台还规划了辅助功能,包括权限管理、资源管理。目前数仓管理属于平台的核心职责,包括4块,业务管理、主题管理、维度管理、指标管理。另外要包括数据模型以及对外服务。
数据建模工具
数据建模工具是本次升级的重要内容,主要包括业务建模、数据建模、物理建模。
元数据中心
在元数据的探索与管理方面,构建数据图谱服务,以元数据为中心,提供完整、标准的元数据查询能力,降低数据发现和数据理解的成本,构建核心数据资产目录,提高数据使用效率。数据图谱主要采用的是流程套件Atlas+ES。
本次提升同样要构建新的元数据中心,主要负责元数据的采集管理,以及数据血缘的构建,对于场景组件采用自动采集形式,还好这次新增组件并不多,基本都支持。
通过元数据中心的构建以及数据图谱服务的构建,可以提供用户更为高效的数据使用环境,通过快速的数据查找,让用户直观的理解和使用当前的数据资产,进而提高开发效率等“用数据”需求。
在数据使用的主要涉及思路有,多条件所有能力以及数据目录门户,同时围绕基础的元数据信息,丰富补充更多的业务关联信心,最后将数据资产再增加标签属性,可以通过标签进行查询。
数据血缘
数据血缘方面也可以构建起来 ,这次可以将整个公司是的全链路进行数据血缘采集与跟踪,这样可以有效增强故障排查以及链路分析,对于运维人员可以快速排查数据的来龙去脉,最后,对于现在正在进行的数据资产也给与了分类定级的依据。