[TOCE] 13 P1-C4-S1 实验平台与文化
Trustworthy Online Controlled Experiments Part 1 Chap 4
如果你要再一堆青蛙中亲出来一个王子,那就尽可能多的找来一堆青蛙, 然后尽快的去亲。
− Mike Moran, Do It Wrong Quickly (2007)
如第1章所述,对照试验是评估许多(虽然不是全部)想法,并做出的科学决策的金标准。对照试验易于操作, 因此可以通过降低尝试新想法的成本来加速创新,并在良性反馈循环中学习。在本章中,我们重点介绍如何构建健壮且可信赖的实验平台。首先介绍实验成熟度模型,该模型显示一个组织开始进行实验时通常经历的各个阶段,然后深入探讨构建实验平台的技术细节。
重要的因素包括领导力,过程和培训,以及是否应该外包,最终如何使用结果。这些技术工具将支持实验设计,部署,扩展和分析,以增加洞察力。
实验成熟度模型
实验成熟度模型包含在数据获取过程中经历的各个阶段,并通过A / B实验检验所有更改。 根据Fabijan等人的研究,我们使用这四个成熟阶段:
-
爬: 目标是建立基础先决条件,特别是基础工具和基本数据科学功能,以便计算所需的统计信息,可以设计,运行和分析一些实验。这一步对于进入下一阶段的动力至关重要。
-
走: 这一步重点在于定义一些衡量指标,再此基础上,进行更多的实验。 可以通过 A/A 实验, SRM (Sample Ration Mismatch)实验 (参考 21章)来提升系统的有效性。
-
跑: 这一步的重点在于进行大规模实验,确保衡量指标种类充足,将OEC编码, 以便针对不同的指标进行取舍。组织这时应该利用实验来评估大多数的新功能和修改。
-
飞: 此时,A/B测试已经成为家常便饭了。功能设计小组应该可以很熟练的掌握A/B测试工具,并且再大多数情况下,不再需要数据科学家的介入了。这个阶段的重点应该在于再大规模的基础上推广自动化。建立实验归档机制,将已经完成的实验归档,并且利用起来,以便从既有的实验中获取经验,分享最佳实践,并且在企业里构建基于实验的文化。
大致的经验法则是,在“爬”阶段,组织大约每月运行一次实验(约10个/年), 每个阶段的实验次数增加4-5倍:“走”阶段的组织大约每周执行一次实验(约50个 /年), “跑” 每天一次实验(约250个/年)和 "飞", 大于每年进行1000 次实验。
随着组织逐步完成这些阶段,技术重点,OEC,甚至团队设置都将发生变化。在深入研究各个阶段的实验平台构建的技术之前,让我们重点介绍组织在各个阶段都需要关注的几个领域,包括领导力和流程。
领导力
构建一个围绕实验的企业文化, 并且将A/B测试嵌入到产品开发过程中是关乎领导力的过程。我们的经验是, 它的影响会贯穿整个过程。
-
第一阶段:此时组织没有任何实验, 只有傲慢。任何方法和实验都不需要, 因为此时组织内是一言堂, 处于HiPPO状态(拿钱最多的人说了算 Highest Paid Person’s Opinion)
-
第二阶段:度量和控制,组织开始度量关键指标并控制无法解释的差异。正如托马斯·库恩(Thomas Kuhn)所指出的那样,范式转变“仅在正常研究首次出现问题时才发生”(Kuhn 1996)。然而,由于组织可能会拒绝与既有认知矛盾的新知识,因此仍然强烈依赖HiPPO和根深蒂固的规范,信念和范式。只有通过持续的测量,试验和知识收集,组织才能达成对基于实验的企业文化的基本了解,此时模型才会真正起作用。
-
第三阶段:依据我们的经验,如果要达到此阶段,要求做到以下内容:
-
建立并公布目标, 并就高阶(high level)的目标度量标准, 和护栏指标(guardrail metrics,请参阅第18章)达成共识。 制定在不同目标间进行取舍的方法,作为建立OEC的前置步骤(请参阅第7章)
-
根据改进指标来设定目标,而不是根据功能来设定目标。当团队完成的功能没有改进关键指标,那么就不应当加入到产品中来。 使用实验作为护栏(决定一个功能是否加入到产品中), 并且转变到以数据为依据的文化,是一项艰巨的变革,尤其是对于大型的,成熟的团队而言。
-
在组织的护栏内(请参阅第21章), 让团队充分创新,以提升关键指标。对想法进行评估,并且预料到其中许多想法会失败,并且当他们的想法无法提升关键指标时,表现出谦卑的态度。建立快速失败的文化。
-
好的工具和数据质量。
-
审查实验结果,明白如何解释它们,并执行解释标准。 说明这些结果如何影响决策, 以此提高决策的透明度。
-
如第1章所述,有些方法可以帮助人们设计出有效的实验, 比如:长时间的实验可以为整体战略提供参考。例如,在一个持续两年的实验显示没有价值之后,Bing与社交网络(如Facebook和Twitter)的集成被放弃了。另一个例子,评估在促销email中包含视频是否会提高转换率的实验将需要测试多种实现。
-
建立一个高风险/高回报项目组合,预期其中一些会成功,而许多(甚至大多数)将失败。从失败中学习对持续创新很重要。
-
支持从实验中进行长期学习,例如进行实验以收集数据或建立投资回报率(ROI)。实验不仅对做出有关个别更改是否提交的决策有用,而且在衡量各种计划的影响和评估ROI方面也起着重要作用。例如,请参阅第5章。
-
通过较短的发布周期来提高敏捷性,以创建一个健康,快速的实验反馈回路,这需要建立关于敏感性的指标(请参阅第7章)。
-
领导者不但要为组织提供实验平台和工具, 还必须为组织提供正确的激励机制,流程和授权,使其能够做出以数据为依据的决策。参与这些活动的领导力在“爬”和“走”阶段尤其重要,以使组织内目标保持一致。