数据管理指南之引用数据和主数据
为了便于理解权威的数据管理体系,计划对DMBOK2进行拆解学习,按照原有章节进行梳理;
本文仅仅为学习交流使用,全部摘录于DMBOK2(原版第二版),如有版权问题将即时撤稿!
备注:下文的引用数据被我改为了字典数据,以便于理解,因为我们的系统里的引用数据统一叫字典;
主数据管理上下文组织内部,需要跨业务领域、跨流程和跨系统使用的数据,也就是需要一致化的共享数据,称之为“主数据”;
在数据体系里字典和主数据都具备这类特征,所以MDM核心是管理字典和主数据;
对于字典来说,MDM系统管理期定义和值域,以确保组织能够访问一套准确且最新的值;
对于主数据来说,MDM系统管理主数据的值和标识符,以确保当前值的准确性和可用性;
字典管理:数据源标识、标准管理、映射管理、人工修正、可信数据下发;
主数据管理:数据源标识、主数据管理、映射管理、人工修正、可信数据下发;
主数据管理是一个全生命周期的管理过程,关键活动包括:
1. 建立主数据实体的上下文,包括相关属性的定义及其使用条件,并加以治理;
2. 识别出在单个数据源内以及多个数据源中代表同一实体的多个实例;构建并维护标识符和交叉引用,以支持信息整合;
3. 协调和整合不同来源的数据,以提供提供主记录或事实的最佳版本。合并记录提供了跨系统的信息合并视图,并视图解决属性命名和数据值不一致的问题;
4. 识别出那些未被正确匹配或合并的实例,确保他们得到修正,并关联到正确的标识符;
5. 通过直接存取、使用数据服务,或通过复制反馈到交易系统、数据仓库或其他分析型数据存储系统,实现可信数据的跨程序访问;
6. 在组织内强制使用主数据。该过程还需要数据治理和变更管理的支持,以确保共享的企业视角。
主数据管理的关键处理步骤:
1. 数据模型管理:定义一致性的逻辑数据和其属性;
2. 数据采集:
(1)接收并应对新的数据源的采集需求;
(2)使用数据清理和数据分析工具进行快速、即时、匹配和高级的数据质量评估;
(3)评估数据并将数据整合的复杂性传递给请求者,以帮助他们进行成本效益分析;
(4)试点数据采集及其对匹配规则的影响;
(5)为新数据源确定数据质量指标;
(6)确定由谁负责监控和维护新数据源数据的质量;
(7)完成与整体数据管理环境的集成;
3. 数据验证、标准化和数据丰富:目的是实现输入数据的一致性,减少关联记录的风险和错误:
(1)验证,识别那些被证明是错误的或可能是不正确或默认的数据;
(2)标准化,确保数据内容符合取值范围、标准的格式(如电话号码)或字段(如地址);
(3)数据丰富,添加可以改进实体解析服务的属性;
例如如下 标化了地址、电话:
输入源数据 标化后的数据4. 实体解析和标识符管理:包括实例提取、实例准备、实例解析、身份管理、关系分析;
(1)通过匹配识别不同记录如何与单个实体相关联,有可能造成假阳性和假阴性;可以通过确定性匹配和概率性匹配进行算法判断;
(2)身份解析,通过多字段进行数据匹配;
(3)匹配类型包括特定数据的重复去辅助人工判断、链接、合并,规则会随着新数据的引入而变化,可信度也是,所以需要定期重新评估匹配合并规则和匹配链接规则,最好提供数据值的统计相关性,以帮助建立置信级别;
(4)主数据ID管理:全局标识符和交叉引用信息。
(5)主数据之间的关系管理,父子关系、从属关系等;
尽管算法可以实现大部分主数据的自动化,但是仍需要一些管理工作来解决数据错误匹配的情况,并不断改进匹配算法从而减少人工工作;
5. 数据共享和管理工作;
从全局来看,主数据管理步骤:
(1)识别驱动因素和需求;
(2)评估和评价数据源;
(3)定义架构方法;
(4)主数据建模;
(5)定义管理职责和维护过程;
(6)建立治理制度,推动主数据使用;
主数据治理核心过程关注点:
(1)要整合的数据源;
(2)要落实的数据质量规则;
(3)遵守使用规则的条件;
(4)要监控的行动和监控频率;
(5)优先级和数据工作响应等级;
(6)如何展示信息以满足利益相关方的需求;
(7)字典和主数据管理部署的标准授权和预期;
主数据管理度量指标:
(1)数据质量和遵从性,通过数据质量仪表盘描述数据质量,说明主题域实体或相关属性的置信度(百分比),以及他在整个组织中符合实际需求的使用价值;
(2)数据变更活动,审核可信数据的血缘,展示数据值的变化率,帮助大家理解,并用于调整算法;
(3)数据获取和消费,通过指标展示数据的上游供应系统、下游的消费系统和流程;
(4)服务水平协议SLA;
(5)数据管理专员覆盖率,识别对数据内容负责的个人或团队,展示评估频率;
(6)维护的总成本;
(7)数据共享量和使用情况,指标展示数据共享环境中流入和流出数据的定义、纳入和订阅的数量和速率;