DàYé玩转数据战略Step By Step
爷我天蝎座,打小不喜欢凑热闹,更不会强迫自己融入热闹,什么国庆长假,什么网红餐厅...只要是让我排队,就感觉是浪费生命,我是万万不会屈从的。
这个说不上毛病的毛病,或多或少也在影响我在专业领域的判断。比如,19年中台这股热闹妖风刮起来的时候,我基本是捏着鼻子远远躲开的。直到最近在调整组织战略,数据运营重新进入我的视野,落地却屡屡不得法时,不得不静下心来探究一番,热热闹闹的数据中台到底在说什么。
翻阅了不少资料,这里推荐下《数据战略-如何从大数据、大数据分析和万物互联中获利
》《数据中台-让数据用起来
》这两本书(部分内容也参考了它们),读罢获益匪浅。小标题里的关键字获利、用起来都是今天我要说的重点。
以史为鉴
我们先看看工业革命的演进路径,从1.0的蒸汽机时代,到2.0的电力、流水线和大规模生产时代,再到3.0的计算机自动化时代,最后是4.0的智能化时代。
image再瞅一眼互联网Web的发展路径,从1.0的计算机互联只读时代,以网络单向提供静态内容给人的方式出现;到2.0的互动分享社交读写时代,以人与人的沟通、创作、传播、协作的双向特征出现(如Facebook/Youtube,HTML5/CSS3技术)
;再到3.0的移动语义和物联 读写执行 时代,计算机可以智能生成、理解和分发用户需要的内容,更理解语义更通人性(如苹果Siri, 小度)
; 2020开始的4.0时代,目前还没权威定义,有云操作系统、去中心化区块链、共生网络
等,下图的Web OS其实也只是形态之一罢了。
图自: https://medium.com/@vivekmadurai/web-evolution-from-1-0-to-3-0-e84f2c06739
参考1:从1.0到3.0的Web进化
参考2:万维网:从WEB 1.0到WEB 4.0和SOCIETY 5.0
参考3:万维网的进化: 从Web1.0到Web4.0
不管是工业革命还是万维网,它们的进化史都有惊人相似之处。蒸汽机只是让车跑的更快让机器更有力量么?你更应该知道火车进入运输业让印刷业极大受益,并带来知识的大范围传播。电力就不用说,催生出电视电话,更加速了资讯的传播。而且人在整个工业或者信息链路上主导的能力越来越弱,随着连接(互联、物联)的不断发生,信息流转的速度不断加快,信息数据的量级也呈爆炸性态势,导致对信息处理效率和准确性的要求也持续增强。这种进化的本质是,我们不再满足于信息的共享和传播,而是更加关注价值的迅速转移。什么是价值转移,举个例子,外卖平台识别到糟糕的天气状况,智能延长外卖的承诺送达时间,让外卖小哥可以不那么拼命赶路,这就是从天气预报信息到外卖小哥交通安全的价值转移。而做到这一切的关键内核,就是信息,也就是我们今天要谈的数据。
而今各色公司都在喊的“数字化转型”“数据中台”“数据运营”“产业互联网”等等都是数据(中台)战略的不同包装或展现形式。数字化转型可不要与以前的信息化转型混淆,信息化可以简单理解成以前的线下手工操作变成了线上系统操作,信息存起来了却是零散的割裂的(即便是结构化的数据)。而数字化是在信息化之后的资源整合、数据连接后的价值挖掘和商业应用。
统一语言
开始之前,先跟各位读者统一下数据语言,防止出现理解偏差,顺便罗列一下我理解中的数据战略体系内容。
1. 术语
数据资产:能直接作用于业务领域,业务人员能阅读和理解的,可计量、可控制、可变现的数据,才能称之为数据资产。数据湖里的那些原始数据或者贴源数据,只能算是数据资源。数据湖一旦维护不当就可能变成数据沼泽。
数据分类:数据的定义五花八门,不同场景有不同的叫法,甚至重叠度很高。我简单罗列了下自己知道的一些数据种类和名称,错误或者疏漏之处欢迎指出。
image2. 四大体系
数据战略的落地规划一般要假设这三个体系:技术体系、数据体系、应用体系和监控体系。技术体系无非就是平台系统、数据组件等的开发。数据体系是核心,就是专心把数据收集、汇总、加工这个形成数据资产的过程做好。而应用体系提供数据服务,在数据资产的基础上提供类似用户画像、信用评估、预警告警等应用服务。为了让前三个体系可以健康持续的运转,需要规范、流程、评估、优化、改进等一系列监督辅助性职能,这个就是监控体系。
3. 五个环节
数据开发5个环节:数据收集 -> 数据汇总 - > 数据开发 -> 数据应用 -> 数据优化。
4. 五个关键步骤
梳理现状 -> 架构规划 -> 开发数据资产 -> 应用数据到业务场景 -> 运营及优化。
第一步: 动起来 & 用起来
horse.png首先,数据战略行动一定是“一把手”工程,因为只有一把手才能推动数据战略的落地。然而,再强势的一把手,也有一拳打在棉花上的时候,毕竟执行力彪悍的团队可遇不可求,而且更多时候不是执行的问题而是组织的问题:令不出“朝堂”、政令不畅、部门墙、阳奉阴违,不一而足。
所以第一步,特别强调,务必从可实操、有价值、可感知的业务场景来切入,我在这一步上是吃了大亏的。而通常符合这个标准的业务场景,从业务运营团队的痛点中比较容易获取。
可实操,说的是技术实现、政策规范、组织协调等层面进行实际操作的难易度。想象一下,
- 你想看PV/UV数据,系统连埋点功能还没有规划,实操性就很弱。后端规划数据上传和数据存储倒不麻烦,前端需要仔细设计如何埋、埋哪里、何时触发、耗电、权限、性能等等一系列,就不是个小事情。等把埋点实现好,App发版对外,用户更新完,之前的活动页PV UV需求可能都过去式了;
- 风控授信需要大量数据支撑,资信数据、社交数据、行为数据、设备数据...有些需要用户的授权,有些授权也没用,因为政策上就不合规,更令人恼火的是即便用户授权了也会投诉你误导用户点击...这种数据的获取必须慎之又慎;
- 当你的数据分析部门只有关系型数据库的技能,对Hive HQL语法、图GraphQL语法千推万阻之时,你能怎么办?
有价值,比较容易理解。没有价值的数据战略行动是没有生命力的,且不具备可持续性。它不应该满足某些个人的喜好,也不能是劳民伤财的政绩工程,而一定是数据的场景应用,可以应用于运营,可以是风控,也可以是市场,但尽量不要只是应用于老板的桌面。就我而言,判断一个数据项目是否有价值,需要重点关注4个领域:用户、市场和竞品、财务、运营。
可感知,是对数据战略升级的一个特别重要的铺垫。直白点说,数据成果要能大张旗鼓的展示出来,让团队感受到它的价值和成就感。比如很多人当成政绩工程的监控大屏,就是能让团队感受到业务流淌的脉搏,感受到与用户面对面的呼吸,还有什么比这打出的鸡血更浓郁?
做到以上三点,这一步就算基本做踏实了。也不建议做多,做的越多落地周期就越长,你的数据战略也就迟迟不见踪影。总结下这个阶段的特点是业务驱动数据,不做高大全的顶层设计,够用就行。不追求完美的规划和架构设计,hard code都行。从独立的小项目切入,甚至多个小项目是各自为战的状态也别介意。至少你已经走起来了不是么?
提醒一点,先动起来不是说没有设计没有规划,而是不要追求完美和完整,这个度请自行揣度。
至少对于“先尽可能多的把全量数据收集起来”这一点,我是持反对意见的。埋点收集一堆用不上的或者垃圾数据,光存储成本就是一种成本浪费,更不要说垃圾数据可能造成的决策误导。有句俚语是:别让数据变成白色大象(White Elephant,代价高昂却一无是处)
第二步: 打造数据文化
image打铁趁热,一鼓作气。
当组织感受到数据的甜头之后,就会想从数据中攫取更多好处。当然,随之而来的阻力也会更大。比如承载巨量数据资产的硬件成本是高的吓人的,无论怎么逼业务部门提出来的数据需求都不怎么像样,或者永远都是就是那几个无关痛痒的业务指标,随着数据战略的全面铺开,难度不断加大,玩不转打退堂的、想砸钱的、不想花钱的...各种冲突都会浮现出来了。
关于提不出来需求这个事,相信很多做过数据的朋友都会有共鸣。拿着一堆数据就好像知道了问题的答案,却不知道问题是什么。
正如科幻圣经《银河系漫游指南》里的超级计算机,对“生命、宇宙和万物”计算出的最终答案是数字 42。你却不知道这个42对应的问题是什么,这才是问题本身的问题。
而数据文化的意义就是,让员工意识到数据的无限可能性,沉醉于数据的价值挖掘,并最终得意于数据的业务应用、商业决策以及经济利益。再概括浓缩到一句话,数据文化就是放大数据金矿的诱惑力,让员工趋之若鹜、甘之若饴。相信每个组织都有自己专属的文化特征,而数据文化,也并无不同。无非是将数据思想植入产品的全生命周期,Data Driven Everything。
这里还是从我自己的角度先给几点血泪踩坑建议吧:
- 一把手一定得亲自参与数据文化的打造,在民主投票出现冲突时、推行卡滞时、优先级排序、方案评审时,这些重要时刻一定不能偷懒或者敷衍,一把手不认真,文化就不可能认真,这是第一原则;
- 数据文化不能成为政绩工程,当数据的产出成为绩效的一部分或者吹嘘的资本时,必须提高警惕。就像写的代码有Code Smell,数据文化同样有Data Smell��。比如数据体系(元数据/标签/数仓)这个地基都没打好,就说自己的数据服务-用户画像多么多么牛掰,这种头重脚轻的Smell特别普遍�;
- 数据建设需要专业人才,数据团队作为数据文化的智囊团和践行者,需要极高的专业度。从架构到工具,从模型到服务,从展示到安全,必须面面俱到;
- 数据文化需辅以完善的规范和流程制度来护航,对于数据资产的管理除了靠人靠技术,就剩下靠制度了。规范制度是数据战略可以持续健康运作的必备条件,否则面对数据中台这种级别的航空母舰,一个历史包袱完全可以让你无法弥补。一个行之有效的“航母操作手册”,比苦口婆心的口水有用的多;
- 文化的落地前期可能需要一些命令式操作,但是随着组织意识的完善,中后期不能让文化走偏成为一种约束。比如逢必谈数据,过于偏执于数据,可能会让决策过程复杂化,产品流程延长,更坏的情况是组织的数据能力不到位,给出错误的数据结论,那就糟糕了。所以相信数据的力量,但不能迷信数据的结论。
这个阶段的重点是要打造较为完整的数据中台架构和组织,整合散落的数据,消除数据孤岛,规范数据的采集、存储和分析,所以规划、整合和规范是本阶段的关键字,剑指数据驱动业务。在上面“统一语言”章节提到的体系和步骤都是架构核心内容,你的数据中台不是在建设这些内容,就是在建设这些内容的路上。再解释一下何谓完整,比如容易被人忽略的“数据安全”,是数据战略的重中之重,绝对不能轻视和忽略,甚至延后再补都不能允许;组织上,数据团队的委员会、产品、开发、质量、模型、运维工程师都不可或缺。
第三步: 数据优化和可持续
image说实话,我们也正在这个阶段的河里摸着石头的人。
当你在天量的数据源上又沉淀出海量的数据资产时,没有人可以保证这些数据资产的质量如何,价值难以评估,安全性未知或者堪忧,数据的管理可能也浮于表面,更多是为了业务应用而仓促成形。另外随着组织战略的调整,一些历史性数据对整体数据中台的冲击和负担,也应该同步清理,抛弃历史包袱。这些都需要治理、监控、优化和升级的。
先说数据治理,这个概念也历史悠久了,甚至理论体系都有好多,像 DAMA、CMMI、DGI等等。基本上数据治理的目标有这几个:提升数据质量、构建统一的数据标准、组织内达成一致的解决数据问题的方法、透明完善的数据管理流程、数据的可持续运营。而数据治理的发展趋势也各有选择,有采用AI来提升数据治理效率的,有采用元数据为核心的分布式治理,我们采用的是后者。
元数据Metadata是什么?描述数据的数据。抽象的定义...它一般分为技术元数据,如表结构、字段约束、字段字典,业务元数据,如业务指标、业务术语,管理员数据,如数据Owner,数据安全等级等等。
元数据的应用场景很多,常见的如ETL程序做数据转换时需要知道源数据的结构和字典,通过数据血缘分析发现改一个字段的长度,会影响哪些系统,都是特别典型的。
再说数据质量,它的高低直接关系到数据决策的对错。所以要对源头数据质量、加工过程质量和使用价值质量进行全方面的评估和改进。简单展开下,源头数据的准确性、时效性至少你得确认清楚吧,1年前的用户资信数据你敢用么? 加工过程的质量更不必说,生成的标签数据,也是有准确率、时效性、覆盖量等,比如不是所有用户都登记了性别的,那男女标签覆盖的只是用户登记过性别的群体而已。加工所需要的模型也是需要不断调整的,以前是你看尿布给你推荐尿布,现在是你看尿布给你推荐啤酒。使用价值的质量相信不太好理解,其实像某个标签的使用量,越多业务部门使用,说明这个标签越有价值;某个高频使用的标签价值可以很低(用户姓名),低频使用的标签价值可以很高(用户信用评分)。
然后说点数据成本的优化策略吧,线上常见的有重复计算、冗余计算导致资源浪费,上面说的低价值的计算却耗费了大量计算资源,不合理的任务调度或者逻辑实现导致并行成了串行,数据资产的产出频率过于密集导致明明日报就行非得小时报刷新。这些也是数据运营的重要策略,而评估数据运营的两个关键维度就是 投入产出比 + 数据质量及安全。
最后对于可持续性就提一下数据安全,因为数据安全关系到数据的全生命周期(产生-存储-传输-使用-共享-销毁),脆弱的安全体系甚至可以瞬间摧毁一个组织。这个我是真的不怎么专业,只知晓一些基本的,如安全认证和权限管理、资源隔离、加密、脱敏、容灾备份等等。这里面还隐含一个数据来源的合规性、合法性,数据本身就是不安全的,当然你在此基础上搭建的任何数据应用就更加的不安全了,极端点就是你的人身安全。
这个阶段基本上就是在迭代优化的路上不断持续运转,技术面、组织面、制度面都是需要跟踪的,如何保持数据文化长久的生命力,将是核心话题。
而我们将要长期走在数据铺就的这条路上,不断成长...
市面上谈中台的文章,开篇通常都是从芬兰的supercell公司说起,无趣的很。今天看到一个有趣的史料说法,中国东汉的中枢机关尚书台,号称中台。唐朝的三省六部制,尚书省也是中台,辖六部。当然,此中台非彼中台,权当一笑。
参考文献:
《数据中台-如何从大数据、大数据分析和万物互联中获利》
《数据战略-让数据用起来》
《中台战略-中台建设与数字商业》