数据管理指南之引用数据和主数据

2021-01-12 本文已影响0人弹指数据之禅

为了便于理解权威的数据管理体系，计划对DMBOK2进行拆解学习，按照原有章节进行梳理；

本文仅仅为学习交流使用，全部摘录于DMBOK2（原版第二版），如有版权问题将即时撤稿！

备注：下文的引用数据被我改为了字典数据，以便于理解，因为我们的系统里的引用数据统一叫字典；

主数据管理上下文

组织内部，需要跨业务领域、跨流程和跨系统使用的数据，也就是需要一致化的共享数据，称之为“主数据”；

在数据体系里字典和主数据都具备这类特征，所以MDM核心是管理字典和主数据；

对于字典来说，MDM系统管理期定义和值域，以确保组织能够访问一套准确且最新的值；

对于主数据来说，MDM系统管理主数据的值和标识符，以确保当前值的准确性和可用性；

字典管理：数据源标识、标准管理、映射管理、人工修正、可信数据下发；

主数据管理：数据源标识、主数据管理、映射管理、人工修正、可信数据下发；

主数据管理是一个全生命周期的管理过程，关键活动包括：

1. 建立主数据实体的上下文，包括相关属性的定义及其使用条件，并加以治理；

2. 识别出在单个数据源内以及多个数据源中代表同一实体的多个实例；构建并维护标识符和交叉引用，以支持信息整合；

3. 协调和整合不同来源的数据，以提供提供主记录或事实的最佳版本。合并记录提供了跨系统的信息合并视图，并视图解决属性命名和数据值不一致的问题；

4. 识别出那些未被正确匹配或合并的实例，确保他们得到修正，并关联到正确的标识符；

5. 通过直接存取、使用数据服务，或通过复制反馈到交易系统、数据仓库或其他分析型数据存储系统，实现可信数据的跨程序访问；

6. 在组织内强制使用主数据。该过程还需要数据治理和变更管理的支持，以确保共享的企业视角。

主数据管理的关键处理步骤：

1. 数据模型管理：定义一致性的逻辑数据和其属性；

2. 数据采集：

（1）接收并应对新的数据源的采集需求；

（2）使用数据清理和数据分析工具进行快速、即时、匹配和高级的数据质量评估；

（3）评估数据并将数据整合的复杂性传递给请求者，以帮助他们进行成本效益分析；

（4）试点数据采集及其对匹配规则的影响；

（5）为新数据源确定数据质量指标；

（6）确定由谁负责监控和维护新数据源数据的质量；

（7）完成与整体数据管理环境的集成；

3. 数据验证、标准化和数据丰富：目的是实现输入数据的一致性，减少关联记录的风险和错误：

（1）验证，识别那些被证明是错误的或可能是不正确或默认的数据；

（2）标准化，确保数据内容符合取值范围、标准的格式（如电话号码）或字段（如地址）；

（3）数据丰富，添加可以改进实体解析服务的属性；

例如如下标化了地址、电话：

输入源数据

标化后的数据

4. 实体解析和标识符管理：包括实例提取、实例准备、实例解析、身份管理、关系分析；

（1）通过匹配识别不同记录如何与单个实体相关联，有可能造成假阳性和假阴性；可以通过确定性匹配和概率性匹配进行算法判断；

（2）身份解析，通过多字段进行数据匹配；

（3）匹配类型包括特定数据的重复去辅助人工判断、链接、合并，规则会随着新数据的引入而变化，可信度也是，所以需要定期重新评估匹配合并规则和匹配链接规则，最好提供数据值的统计相关性，以帮助建立置信级别；

（4）主数据ID管理：全局标识符和交叉引用信息。

（5）主数据之间的关系管理，父子关系、从属关系等；

尽管算法可以实现大部分主数据的自动化，但是仍需要一些管理工作来解决数据错误匹配的情况，并不断改进匹配算法从而减少人工工作；

5. 数据共享和管理工作；

从全局来看，主数据管理步骤：

（1）识别驱动因素和需求；

（2）评估和评价数据源；

（3）定义架构方法；

（4）主数据建模；

（5）定义管理职责和维护过程；

（6）建立治理制度，推动主数据使用；

主数据治理核心过程关注点：

（1）要整合的数据源；

（2）要落实的数据质量规则；

（3）遵守使用规则的条件；

（4）要监控的行动和监控频率；

（5）优先级和数据工作响应等级；

（6）如何展示信息以满足利益相关方的需求；

（7）字典和主数据管理部署的标准授权和预期；

主数据管理度量指标：

（1）数据质量和遵从性，通过数据质量仪表盘描述数据质量，说明主题域实体或相关属性的置信度（百分比），以及他在整个组织中符合实际需求的使用价值；

（2）数据变更活动，审核可信数据的血缘，展示数据值的变化率，帮助大家理解，并用于调整算法；

（3）数据获取和消费，通过指标展示数据的上游供应系统、下游的消费系统和流程；

（4）服务水平协议SLA；

（5）数据管理专员覆盖率，识别对数据内容负责的个人或团队，展示评估频率；

（6）维护的总成本；

（7）数据共享量和使用情况，指标展示数据共享环境中流入和流出数据的定义、纳入和订阅的数量和速率；