Netflix是如何做决策的? | 7. 学习的文化
这是Netflix关于实验和决策的系列文章,系统介绍了实验对于Netflix的重要性,实验的最主要工具--A/B测试,数据科学和文化在实验与决策过程中的重要性等。整个系列共七篇文章,这是第七篇。原文:Netflix: A Culture of Learning[1]
这是关于Netflix实验的概述系列文章的最后一篇。想看前面的文章?A/B测试的文章介绍了基础知识(第1部分和第2部分),核心统计概念(第3部分和第4部分),如何对决策建立信心(第5部分),实验和A/B测试在Netflix的规模较大的数据科学与工程组织中扮演了怎样的角色(第6部分)。
本系列的早期文章涵盖了A/B测试的原因、内容和方法,所有这些都是产品开发中通过实验进行学习的必要条件。但如果没有一点魔法,这些基本的东西仍然不够。
将实验的原始数据转变成强大的产品创新的秘诀是文化[2]。在构建和发展文化时,从来没有任何捷径,培养实验文化也不例外。建立领导力、接受强调A/B测试的学习方法、建立对测试结果的信任,以及建立大规模执行实验的技术能力,这些都需要时间——特别是在一个对这些想法还不熟悉的组织中。但是使用实验的回报和通过科学方法进行产品开发的良性循环是非常值得努力的。微软的同行分享了一些关于如何启动实验飞轮以及建立实验文化[3]的文章,而他们的“爬-走-跑-飞(Crawl,Walk,Run,Fly)”[4]模型是评估实验实践成熟度的好工具。
在Netflix,几十年来我们一直在利用实验和科学方法,幸运的是,我们拥有成熟的实验文化。公司内部普遍认同,包括高管层,只要有可能,A/B测试或其他因果推理方法的结果就接近决策的要求。我们还投资于教育项目,以提高全公司对如何使用A/B测试作为产品开发框架的理解。事实上,这个系列文章的大部分内容都是改编自我们内部的实验101和201课程,这两门课程对所有Netflix员工开放。
Netflix是学习型组织
作为一家公司,Netflix强调从数据中学习的重要性,包括从A/B测试中学习。我们的数据和洞察组织拥有与公司各个部门合作的团队,从了解全球范围内的内容偏好到提供无缝的客户支持体验,为会员提供更好的服务。我们使用定性和定量的消费者研究、分析、实验、预测模型以及其他工具来发展对会员的深刻理解。我们拥有数据管道,从面向高管的仪表板到个性化系统,这些系统帮助每个Netflix会员获取内容,为他们带来快乐。这种数据驱动的思维模式在公司的各个层面都是普遍存在的,数据和洞察组织代表着Netflix的最高领导层[5]。
正如第6部分所讨论的那样,有一群专注于实验和因果推理的数据科学家与Netflix的产品创新团队合作。这些数据科学家设计和执行测试,以支持学习过程,并有助于决策制定。通过深入研究单个测试结果的细节,寻找跨测试模式,并探索其他数据源,这些Netflix数据科学家建立了关于Netflix体验方面的领域专业知识,并成为产品经理和工程领导者的重要合作伙伴。数据科学家通过评估机会和确定成熟的创新领域,帮助塑造Netflix产品的演变,并经常提出假设,随后进行测试。
我们还投资了一个广泛而灵活的实验平台,使实验项目能够随着公司的雄心扩大,学习更多,更好的服务Netflix会员。正如Netflix产品本身多年来不断发展,我们开发技术以支持大规模实验的方法也在不断发展。事实上,20多年来,我们一直致力于改进Netflix的实验平台解决方案——我们第一次投资于支持A/B测试方面的工具要追溯到2001年。
Netflix公司的Stan Lanning于2001年开发了早期实验工具。学习和实验在Netflix无处不在
加强实验和科学方法的使用,作为为我们所有会员提供更多乐趣的手段,是Netflix独特的内部文化[2]。作为一家公司,我们的目标是保持好奇心,真诚了解世界各地的会员,以及如何更好的服务他们。我们的思想也很开放,知道伟大的想法可能来自不太可能的来源。没有什么比通过严格的测试来确认或证伪想法和假设能够更好的帮助学习以及做出伟大的决策了。开诚布公的分享测试结果,让Netflix的每个人都能对我们的会员产生直觉,知道我们如何向他们提供更好的体验的想法——然后,就可以进入良性循环。
Netflix实际上在任何时候都有很多测试运行在生产环境上,以至于一个会员可能同时被分配到多个测试中。Netflix没有单一的产品:任何时候我们都在测试大量的产品变体,总是寻求了解更多关于如何为我们的现有会员提供更多乐趣,并吸引新会员。有些测试,比如Top 10列表,用户很容易注意到,而另一些测试,比如个性化和搜索系统[6]的变化,或者Netflix如何编码和传输流媒体视频[7],则不那么明显。
在Netflix,我们不怕大胆测试,敢于挑战基本的或长期存在的假设。Top 10是这两方面的一个很好的例子:这是一个巨大而显著的变化,为Netflix的产品提供了一种新的素材。像这样的大型测试可以为创新打开全新的领域,并在公司内部进行积极的社交和讨论(见下文)。另一方面,为了优化产品的各个方面,我们也会在更小的范围内进行测试。一个很好的例子就是我们为了找到适合产品各个方面的文本副本而进行的测试。从数字上看,我们运行了更多的这些较小且不太明显的测试,我们投资于端到端基础设施,简化它们的执行,允许产品团队快速从假设到测试,推出成功的体验。例如,Shakespeare项目[8]为快速文本复制测试提供了端到端解决方案,该方案集成了集中式Netflix实验平台。更一般地说,我们总是在寻找可以从实验中获益的新领域,或者可以产生新的或更快的学习领域的方法或工具。
测试辩论以及谦逊的重要性
Netflix拥有成熟的运营机制,可以辩论、制定产品决策并将其公开发布。Netflix不会通过委员会或寻求共识来做决定。相反,对于每一个重要的决定,都有一个拥有所有信息的“船长[2]”,他在消化相关数据和同事的输入(包括不同的观点)后,最终负责做出判断。在可能的情况下,A/B测试结果或因果推理研究是这个决策过程的预期输入。
事实上,产品决策不仅需要测试结果,还需要对创新和测试的投资领域、重大创新的测试计划、重大测试的结果进行总结,并广泛、公开、积极的讨论。进行这些讨论的论坛可以被所有人访问,确保不同观点对测试设计和结果提供反馈,并在决策中权衡。这些论坛是向任何感兴趣的人开放的,参与条件是需要阅读备忘录。尽管参加论坛的高管人数很多,但这些论坛没有明显的等级制度,所有人都被数据所引导。
Netflix数据科学家是这些论坛中活跃且有价值的参与者。数据科学家为数据说话,分析从实验结果中可以得出什么和不能得出什么,不同的实验设计的利弊,等等。虽然他们不是产品决策的知情领导者,但数据科学家,作为数据的解释者,是关键产品决策的积极贡献者。
通过实验改进产品真是一次让人感觉谦卑的经历。在Netflix,有专家在每个方向开发和发展所需的Netflix服务(产品经理、UI/UX设计师、数据科学家、所有类型的工程师、推荐系统专家和流媒体视频优化专家,等等),他们经常想出如何改进Netflix的新假说。但在A/B测试中,只有一小部分想法是赢家。没错,尽管我们拥有广泛的专业知识,但会员们通过A/B测试中的行为让我们知道,大多数想法对服务并没有任何改善。我们每年都开发和测试数百种不同的产品,但只有一小部分会最终成为产品,投放给全球数亿Netflix用户。
实验项目的低胜率既让我们保持谦卑又给予我们很大的帮助。公司里任何人都可以看到数据,看到有那么多伟大的想法以及那么多最终没有成功的投资,让人很难保持自负。但没有什么比看到所有专家都看好的想法在A/B测试中被会员的行为否决更能证明实验决策的价值了,同样有巨大价值的是看到那些对注册流程的细微调整却产生了巨大的收益。
在Netflix,我们不会把没有带来成功经验的测试视为“失败”。当会员们用行动否决新产品体验时,我们仍然可以了解到他们的偏好,以及是否有什么改变会对不同的会员群体有效(或无效!),哪里可能有(或者可能没有)创新的机会。结合从某个给定测试区域(如移动用户界面体验)学到的东西,帮助我们描绘了一幅更为翔实画面,告诉我们这些体验与(或者不与)会员产生共鸣的原因,从而引导做出新的假设、新的测试,最终为会员提供更快乐的体验。随着会员在全球范围内不断增长,消费者偏好和期望不断演变,我们也会重新审视那些最初测试时不成功的想法。有时候,从最初的分析中我们会发现,现在是实现某个想法的更好的时机,这将为新会员群体提供更多价值。
由于Netflix测试所有想法,而大多数想法都不会成功,因此我们的实验文化是使想法尽量公开。产品经理总是渴望创意,并对公司中任何人(无论其资历或专业水平如何)提出的创新建议持开放态度。毕竟,我们会在推广之前进行测试,即使是专家的成功率也很低!在Netflix,我们一次又一次看到,工程师、数据科学家甚至高管们提出的大大小小的产品建议,都能带来意想不到的结果。
(左)很少的想法会成功。(右)实验使思想公开。我们会测试所有创意,而大多数创意都不会成功,所以我们对来自企业各个角落的产品创意持开放态度,任何人都可以提出建议。实验文化允许更多的声音对创意做出贡献,更多的声音帮助决策。这是从每个从事产品工作的人那里获得最好想法的方式,并确保推出的创新得到会员的审查和批准。
对会员来说体验到了更好的产品,对公司来说建立了谦逊、重视想法和证据的内部文化,实验是Netflix达成这一双赢的前提。
新兴研究领域
虽然Netflix已经进行了数十年的实验,但对于我们想要学习以及想要建立的对于学习的支持能力来说,还只触及到了表面。在Netflix的实验和因果推理中存在着更多的挑战和机遇:探索和实施新的方法,让我们更快更好地学习;开发支持研究的软件解决方案;改进内部实验平台,以更好服务于不断增长的用户社区以及不断增长的实验规模和吞吐量。通过内部活动、教育项目以及外部贡献,我们持续关注实验文化的演进和发展。以下是我们关注的一些主题:
提升周转速度:超越固定时间范围的实验。
本系列关注的是固定时间范围的测试:样本大小、分配给每个测试的流量比例以及测试持续时间都是预先固定的。原则上,数据只在实验结束时检查一次,确保误报率(请参阅第3部分)不会因为多次查看数据而增加[9]。实践中,我们希望能够在保持本系列前面所描述的统计特性的情况下,能够尽早调用测试,或者调整输入流量的分配,从而能够逐步了解哪些测试方法是成功的、哪些是失败的。为了实现这些好处,Netflix正在投资于持续实验(sequential experimentation),从而能够在任何时刻都能做出有效决策,而不需要等待固定的时间,这些方法已经被用于确保Netflix客户端应用程序的安全部署[10]。我们还投资支持实验性设计(experimental designs),从而在整个测试过程中动态的将流量分配给有希望的测试方法。这两种努力的目标都是相同的:更快获得对会员有益的经验。
准实验(quasi experimentation)和因果推理的规模化支持。
Netflix通过经典的在线A/B测试或随机对照试验,已经学到了很多东西,并极大的改进了产品的几乎每一个方面,这也是本系列的重点。但并不是每个业务问题都能接受A/B测试,无论是由于无法在个体层面随机化,还是由于溢出效应(spillover effects)[11]等因素,这些因素可能违反有效因果推理的关键假设。在这些情况下,我们通常依赖于准实验的严格评估,在准实验中,测试单元不是随机过程分配给测试组或控制组的。但不同于Netflix数据科学社区所代表的强大学术背景,“准实验”一词本身涵盖了实验设计和方法方法的更广范畴。我们怎样才能实现跨领域的综合最佳实践,并扩展方法使更多同事能够利用准实验?
这一领域的早期成功范例是由在垂直业务、教育和通过工具实现的知识共享方面的投资驱动的。因为Netflix的准实验用例跨越了许多领域,所以确定常见模式是开发共享库的强大推动力,科学家可以使用这些库来评估单个准实验。为了支持持续扩大的规模,我们已经建立了内部工具,将数据检索、设计评估、分析和可重复报告结合起来,所有这些都是为了赋能我们的科学家。
希望我们在研究、工具和准实验教育方面的投资会随着时间的推移而增长。我们将帮助科学家和他们的跨职能合作伙伴了解更多关于如何为当前和未来的Netflix用户提供更多乐趣的方法。
实验平台即产品(Experimentation Platform as a Product)
我们将Netflix实验平台视为内部产品,有自己的产品经理和创新路线图,目标是为配置、分配、监控、报告、存储和分析A/B测试提供端到端路径,并专注于为简单性和快速测试而优化的实验用例。我们的目标是使实验成为产品生命周期的一个简单和集成的部分,工程师、数据科学家或项目经理在创建、分析和操作测试方面只需要付出很少的努力,就可以自动化的在任何地方运行想要的测试。
然而,如果平台的默认路径对于特定的用例不起作用,那么实验人员可以利用我们的开放模型[12],或者重用平台的部分功能,来构建自己的解决方案。随着实验人员在测量方法、实验设计和自动化的边界上进行创新,实验平台团队将合作对这些创新进行商品化,并使其可用于更广泛的组织。
实验平台产品开发基于三个核心原则:
- 测试的复杂性及其细微差别(例如分配和方法),通常应该从单个测试中抽象出来,从而可以将重点放在为一组用例或测试提供有效的默认设置上。
- 通常,在测试执行的特定步骤上可以进行手动干预,不过重点应该帮助测试所有者能够将注意力投入到有价值的地方,并将其他领域留给自动化。
- 设计、执行、报告、决策和学习都是实验生命周期的不同阶段,有不同的需求和用户,每个阶段都受益于针对特定目的构建的工具。
结论
Netflix有很强的实验文化,应用A/B测试或其他科学方法的结果,通常被期望对如何改进产品以及为会员提供更多乐趣的决策提供信息。为了支持目前和未来不断增长的Netflix会员基数以及不断增加的业务复杂性所要求的实验规模,Netflix在文化、人员、基础设施和内部教育方面进行了投资,从而公司内部广泛普及A/B测试。
我们还在继续发展学习和实验文化,为全世界的Netflix会员提供更多的乐趣。随着会员基数和业务的增长,测试组和控制组之间的微小差异变得至关重要,这也适用于用户的子集:随着用户基数增长,我们可以更有针对性,并根据地理区域、设备类型等定义为用户群体提供积极的体验。随着业务的增长和扩展,我们正在寻找新的可以从实验中受益的方向,进行更多实验,学习更多方法,加快实验项目,同时让更多的同事可以进行实验。
不过最大的目的仍是通过实验的良性循环,为会员带来更多的快乐。
References:
[1] Netflix: A Culture of Learning: https://netflixtechblog.com/netflix-a-culture-of-learning-394bc7d0f94c
[2] Netflix Culture: https://jobs.netflix.com/culture
[3] It takes a Flywheel to Fly: Kickstarting and Keeping the A/B testing Momentum: https://www.microsoft.com/en-us/research/group/experimentation-platform-exp/articles/it-takes-a-flywheel-to-fly-kickstarting-and-keeping-the-a-b-testing-momentum/
[4] The Evolution of Continuous Experimentation in Software Product Development: https://exp-platform.com/Documents/2017-05%20ICSE2017_EvolutionOfExP.pdf
[5] About Netflix: https://about.netflix.com/en/about-us
[6] Personalization and Search: https://research.netflix.com/business-area/personalization-and-search
[7] Streaming: https://research.netflix.com/business-area/streaming
[8] Words Matter Testing Copy with Shakespeare: https://netflixtechblog.medium.com/words-matter-testing-copy-with-shakespeare-5df48b38158a
[9] Peeking at A/B Tests: http://library.usc.edu.ph/ACM/KKD%202017/pdfs/p1517.pdf
[10] Safe Updates of Client Applications at Netflix: https://netflixtechblog.com/safe-updates-of-client-applications-at-netflix-1d01c71a930c
[11] Spillover Experiment: https://en.wikipedia.org/wiki/Spillover_(experiment)
[12] Reimaging Experimentation Analysis at Netflix: https://netflixtechblog.com/reimagining-experimentation-analysis-at-netflix-71356393af21
你好,我是俞凡,在Motorola做过研发,现在在Mavenir做技术工作,对通信、网络、后端架构、云原生、DevOps、CICD、区块链、AI等技术始终保持着浓厚的兴趣,平时喜欢阅读、思考,相信持续学习、终身成长,欢迎一起交流学习。
微信公众号:DeepNoMind