Label Hierarchies(六)
使用技法与重要问题
标签规范
数据必须转化成能解决业务问题、提升业务效率的标签才具有价值,否则就是数据负累。因此业内一直尝试探索的核心环节就是数据的商业变现,或者称为数据到商业价值的通道。
标签化
- 根目录指向标签所属的对象
根目录往往是一种较为模糊、宽泛、简单的名词或动名词,例如用户、购房者、酒店、浏览(记录)、交易(记录)、报修(记录)。按照前文提到的数据思维,世上的一切事物都可以归为人、物、关系三类对象,因此一个用来指向某个对象的词(名词指向人、物,动名词指向关系)都不应该是标签,往往是标签根目录. - 类目是对标签的分类
例如消费者身上的标签可以分类为基本信息、地理位置、社交关系等,这些分类名也是类目名。类目往往由名词构成。一个类目及其所归类的标签在数据物理层面可以和某张具体表对应,例如“消费者”对象的【基本信息】类目下,有“性别”“年龄”“籍贯”等多个标签,一般对应于消费者数据库中的一张消费者基本信息表,该表中会有“性别”“年龄”“籍贯”等多个字段。 - 标签是对象的属性,颗粒度到字段级
“购房者姓名”“购房者电话”“购房者居住地址”“购房时间”等字段粒度的属性就是“购房者”对象的标签。标签往往由前后两个名词构成,前一个名词作为对象定语修饰后一个名词。 - 标签值是对象属性的具体取值
标签值往往是形容词、名词或数字,一般对应于数据库中某张数据表中的某字段取值。标签值的取值类型可以是数值型、文本型、日期型、KV型,但主要为数值型。数值型中又分可枚举的离散值和不可枚举的连续值。
元标签
标签的标签称为元标签。元标签是对标签对象的属性描述,旨在采用业务化的术语,帮助前端业务更好地理解标签。因此标签的精髓主要体现在元标签信息的呈现上。一个标签能否让业务人员充分理解、思考适用场景、发挥数据价值,关键就在于元标签信息是否梳理到位。元标签主要有标签所属根目录、标签所属类目、标签名、标签描述、标签加工类型、标签逻辑、值字典、取值类型、示例、更新周期、安全等级、适用场景、当前调用量、质量分、价值分、表名、字段名、负责人、完成时间等
标签问题
谈谈组合标签
在标签理论传播过程中,业务人员会主动提出“是否能根据现有标签自由组合出满足业务需要的组合标签”之类的好问题。面向业务人员的组合标签更具灵活性,业务人员无须将数据任务提交给技术人员,只需通过标签组合工具在交互界面中对现有标签进行自由组合配置,即可实现新标签的设计和使用。组合标签可以极大缩短新标签的创建周期,以便业务端灵活快速地试错标签,最终找到一种最佳的标签组合规则以满足场景需求。
同一对象下的标签组合
- 通过对某对象下单个标签的取值处理加工得到新标签
- 通过对某对象下多个标签的取值处理加工得到新标签
不同对象间的标签组合
如何使用标签
什么是平台级复用
数据中台的核心要义是提升可复用性,降低业务试错成本,最大程度解放业务人员的能动性和积极性。
平台级复用的标签使用方式
- 标签的自由选择
- 标签的使用配置
什么是服务组件、数据服务、数据应用系统
数据运营部门将数据使用方式封装好,就相当于为各个业务端消费者铺设好了使用水的管道。管道的粗细、长短、材质,运输的内容等基础设施信息,都会由专业的团队来确定和构建。在业务端,业务人员只需要“拧开水龙头”,就可以得到源源不断的、有质量保障的数据资源,而不需要自己投入大量成本,还无法保障数据使用的性能
- 服务组件
生成API形式的数据服务,适用于与复杂系统对接或界面、系统定制要求较高的情况;
生成数据应用系统,直接带有简单的交互界面,可以供业务方端到端地直接使用,简单明了。
例如:分析服务组件,推荐服务组件,定向服务组件,大屏服务组件,监控服务组件,舆论服务组件,优化服务组件,风控服务组件,搜索服务组件,搜索服务组件,指数服务组件.... - 数据服务
数据服务是指通过API形式提供某种数据功能,以满足业务系统调用所需。业务方在选择某一服务组件,导入相关的数据标签,并配置业务所需的功能参数后,就可以自主创建数据服务了。 - 数据应用
数据应用指面向业务侧提供带交互界面的数据功能组合,是数据应用结果的系统呈现。在服务组件基础上,将数据服务结果配合可视化组件,形成可视化的数据应用系统向业务端呈现,即生成一个带交互界面的数据应用系统。
服务组件的演变趋势
标签怎么运营
标签的全生命周期运营
- 标签设计
- 标签开发
- 标签上架
- 标签使用
- 标签治理
血缘信息
元标签规范
质量管理:制定一套标签质量管理规则,遵循标签质量标准,并配备可视化的标签质量监控平台、标签交叉验证工具等技术支撑
安全管理 - 标签营销
标签运营环节中的责任单位
标签的运营闭环
标签质量怎么看
标签质量是业务部门使用标签前尤为关心的问题。质量参数可以帮助业务人员筛选出优质可靠的标签的重要信息,也可以指导标签运营、管理人员从哪些方面去优化和治理标签。
数据来源类相关指标
- 数据源安全性:数据源数据的安全程度,是否合法取得、是否得到用户授权许可等都会间接影响标签的数据安全性。
- 数据源准确性:数据源数据的准确性,是第一现场取得,间接获取,还是边缘推算,都与标签最终的准确性有关。
- 数据源稳定性:数据源数据产生的稳定性,包括产生周期的稳定性、产生时段的稳定性、产生数据量的稳定性、产生数据格式的稳定性、产生数据取值的稳定性等。
- 数据源时效性:数据源数据从第一现场产生到传输录入的时间间隔,行为类数据的时效性会间接影响标签准确性。
- 数据源全面性:数据源数据是否全面,各个层面的数据是否都能整合打通,进行全域计算。
标签加工过程相关指标
- 标签测试准确率:标签在建模、测试过程中得到的准确率,是一种类似试验性质的初始准确率,供参考。
- 标签产出稳定性:标签每天计算、加工、产出时间的稳定性,能否准时产出也是业务人员使用标签时重点考虑的指标。
- 标签生产时效性:标签生产的时间间隔,时间间隔越短,时效性越强。时效性对实时类标签尤为重要。
- 标签取值覆盖量:具有某标签的有效标签值的对象个体数量。由于每个对象个体的数据完善程度不同,同一个标签能覆盖到的对象群体不同。例如在用户信息中,有的用户登记有性别信息,有的用户没有登记,“性别”这个标签的取值覆盖量就是那些有性别有效取值(“男”或“女”;“未知”不是有效取值)的个体总数。
- 标签完善度:标签有很多元标签信息,即标签的“标签”,这些元标签信息的完善程度是业务使用的可用性指标。
- 标签规范性:标签的元标签信息是需要按照规范格式登记的,包括现有标签的元数据信息是否合规以及合规程度如何。
- 标签值离散度:标签取值是集中在某个数值区间或某几个取值,还是呈相对平均分布。离散度没有绝对的好坏,一般场景下离散度越高越好,说明能找出具有不同特征值的各类群体。
标签使用过程相关指标
- 标签使用准确率:标签在使用过程中,经过业务场景验证、反馈得出的标签准确率,是一种较为真实的准确率判断。
- 标签调用量:标签平均每日的调用量、今日当前累计调用量、历史累计调用量、历史调用量峰值都是可参考的调用量信息,反映该标签被业务真实调用的次数。
- 标签受众热度:标签被多少业务部门、业务场景、业务人员申请使用,可以反映标签的适用性、泛化能力。
- 标签调用成功率:某标签在真实使用场景中,调用成功次数(历史总调用次数-调用失败次数)占总调用次数的比例。
- 标签故障率:某标签在真实使用场景中,累计故障时长占总服务时长的比例。
- 标签关注热度:对标签在标签门户中被搜索、浏览、收藏、咨询、讨论等的热度进行综合计算得出的热度。标签持续优化度:该标签是持续被开发人员迭代优化,还是尚处于一次开发阶段,反映了该标签被反复锤炼、持续优化的程度。
- 标签持续使用度:标签被业务申请使用后,平均被调用时长、频率及推广情况,反映了该标签是否真正为业务带来价值。
- 标签成本性价比:将标签加工过程中产生的数据源成本、计算成本、存储成本与其为业务带来的价值、调用量、应用重要程度等进行综合计算,得到的性价比指标,是一个纵观成本和价值的平衡参数。
标签成本怎么看
标签数据源采集与存储成本
- 信息化建设
- 数据埋点
- 数据补录
- 数据爬虫
- 数据收购
- 数据合作
标签设计与加工成本
标签使用与营销成本
标签价值怎么看
标签价值的分类
- 企业内部经营管理优化
- 企业对外的数据业务赋能
- 合规的数据交易产业
- 普惠民生的社会价值
标签价值的衡量方式
- 收益法
- 市场法
- 成本法
标签方法论与数仓建模的异同
标签方法论与数仓建模的差异
-
建设思路不同(怎么解决企业业务多变,数仓建设跟不上业务变化的问题)
随着业务日益复杂,数仓的数据切片越来越多且相互之间不容易连通,重复建设越来越严重,同时业务端无法看懂数仓建设的数据信息项,复用率低。数仓的数据建设思路是基于现有业务流程的,因此主数据是在现有业务流程的信息化建设基础上整理出的核心数据。但在大数据时代,企业的新业务模式层出不穷,数据使用形态变化多端,一般无法预知,也无法限定。在真正开启场景驱动的数据时代,主数据从设计理念上就无法匹配企业场景化的数据资产建设和使用需要。随着企业数字化转型的深入,各种新技术赋能业务发展,数仓建设越来越呈现出疲软的态势。
与传统数仓先有业务流程或数据需求再建设数据体系的思路相反,标签类目体系的建设思路是先构建标签资产,再构建数据服务化能力,组合式地满足业务端快速变化的场景化需求。在数据时代,使用数据的方式是场景化的,会随着时空条件快速变化。因此需要找到一种面向场景化的数据资产构建方式,并提供各种类型的服务组件能力,采用数据资产与服务组件自由适配的方式来解决未来不确定的业务问题。 - 建模角度不同
与数仓建模基于领域建模不同,标签方法论基于对象建模,描述的是对象本质信息。基于标签方法论,企业可以对所涉及的所有对象进行全面细致的标签刻画,通过以价值推导治理的反向思路来对数据资产进行全生命周期运营。未来的各种业务场景都可以基于标签类目体系选择所需的对象标签
标签方法论与数仓建模的联系
- 标签方法论与数仓建模的相互学习(可复用的实现方法)
标签方法论中的对象、属性等概念借鉴于数据库、数仓建模。
数仓建模的分层理论中,可以增加标签层的设计与开发过程;同时数据开发人员在搭建数仓时,对数据资源的切割处理也可以借鉴标签理论中的面向业务、可复用、良好的组织形式等思路。 - 标签方法论与数仓建模的共存
在标签层再往下搭建数仓层,实现标签的落地开发;在数仓层再与原始数据层对接,完成对原始数据的加工