[TOCE] 22 P2-C6-S2 把指标组织起来

2021-05-07  本文已影响0人  数科每日

Trustworthy Online Controlled Experiments Part 2 Chap 6


制定度量标准:原理与技术

现在,你应该可以描述出来你想象中成功的样子,以及达到成功所需要的驱动因素。 接下来,开始制定指标。这是我们将定性概念应用于具体的,可量化的定义的时候。有些指标,例如短期收入,答案可能显而易见。但是,公司如果成功定义为长期收入,这比当下的收入更难衡量。其他难以衡量的成功概念包括用户幸福感和用户信任度。

制定目标和推动因素时, 要遵循的关键原则是:

目标指标

驱动指标

牢记这些原则,这里有一些有用的技术和制定指标的注意事项:

评估指标

我们概述了制定度量标准时应遵循的几个原则。大多数度量标准评估和验证都在制定阶段进行,但是随着时间的推移,需要不断进行评估。例如,在添加新指标之前,需要评估与现有指标相比,新指标是否可以提供其他信息。生命周期价值(LTV)指标必须随时间进行评估,以确保预测误差保持在较小范围内。必须定期评估严重依赖于实验的指标,以确定它们是否会导致博弈 。

最常见和最具挑战性的评估之一是建立驱动指标与组织目标指标之间的因果关系,即该驱序指标是否真正有助于达成目标指标。在营利性组织中,卡普兰和诺顿写道:“最终,记分卡上所有度量的因果关系都应与财务目标联系起来”(卡普兰和诺顿,1996年)。 Hauser和Katz(Hauser and Katz 1998)写道:“公司必须确定团队今天可以影响的指标,但最终会影响公司的长期目标。” Spitzer(Spitzer 2007)写道:“度量框架最初由关键度量及其因果关系的假设(假设)组成。这些假设随后将通过实际数据进行检验,并可以得到确认,否认或修改。”由于我们通常不了解潜在的因果模型,而仅具有假设的心理因果模型(瞎猜),因此这一要求最难以满足。

以下是一些用于解决因果关系验证的高级方法,您也可以将其应用于其他类型的指标评估:

请注意,将驱动度量标准与目标度量标准相关联的挑战也适用于护栏度量标准。请参阅第5章中的示例,该示例说明了如何进行实验以测量延迟(护栏指标)对目标指标的影响。

指标的演进

指标定义会随着时间的推移而发展。即使概念保持不变,其定义仍可能会更改。之所以会发生变化,可能因为:

某些指标的发展可能比其他指标更快。例如,驱动指标,护栏和数据质量指标的发展可能比目标指标更快,这通常是因为这些指标是由方法改进而不是基本业务或环境演变所驱动。

由于指标会随着时间的推移而发展,因此随着组织的发展,应该在处理指标变化时变得更加结构化。具体来说,需要基础架构来支持对新指标的评估,相关联的架构更改,所需数据的回填等等。

其他的资源

有几本关于指标,度量和性能指标的好书(Spitzer 2007,Parmenter 2015,McChesney,Covey和Huling 2012)。 Spitzer指出:“使测量如此有效的原因是它能够采取有根据的行动,从而为人们提供了在正确的时间进行正确的行为的机会。”在对照实验的背景下,由于“干预”是对每个指标产生影响的原因(极有可能产生具有高度统计意义的显着效果),因此制定关键指标是对某个想法(“处理”)的价值在某个坐标轴上的评估。

补充 1:护栏指标

护栏指标有两种类型:与可信赖性相关的护栏指标和组织护栏指标。与可信赖性相关的护栏指标将在第21章中详细讨论,因为这些对于确保实验结果可信赖是必要的。在这里,我们讨论组织护栏指标。

正如我们在第5章中讨论的那样,延迟增加甚至几毫秒都可能导致收入损失和用户满意度下降。因此,延迟通常被用作护栏指标,因为它是如此敏感,尤其是相对于收入和用户满意度指标而言。大多数团队通常都在尝试新功能,这样做时,他们会检查延迟并尝试确保其功能不会增加延迟。如果新功能会导致延迟,则将引发有关权衡的讨论,例如新功能的影响是否值得延迟增加带来的影响,是否有方法可以缓解,或是否有办法改善新功能的影响。

许多组织护栏指标类似于延迟,比较敏感,这些指标会影响目标或驱动指标,大多数团队的工作不应该影响这些指标(很重要,所以不能碰)。此类指标的示例包括:

  1. HTML响应的延时。在网站上,服务器响应延时代表引入了大量代码(例如JavaScript)。对这样的更改发出警报是发现草率优化代码的好方法。

  2. 每页JavaScript错误。降低页面质量(即增加页面上的平均错误数量)是一种会影响发布的严重问题。按浏览器进行细分有助于识别JavaScript问题是否与浏览器有关。

  3. 每用户收入。一个团队在产品的某一部分(例如相关性)上工作,可能没有意识到他们正在损害公司收入。每位用户收入通常具有较高的统计差异,因此作为护栏不敏感;更敏感的指标可能是不错的选择,例如每用户收入指标(用户是否有收入:是/否),每用户收入上限(超过X的上限为 X)以及每收入页面(有更多页面单位,尽管必须注意正确计算方差,请参阅第22章)。

  4. 每个用户的浏览量。由于很多指标都是基于页面为单位统计的,因此每用户的综合浏览量的变化可能意味着许多指标发生了变化。关注分子是很自然的,但是如果每个用户的浏览量发生变化,则是分母发生变化。如果更改是意外的,则值得仔细分析原因(Dmitriev et al.2017)。请注意,每位用户的综合浏览量不一定在所有情况下都可以用作护栏;例如,如果您要测试无限滚动功能,则几乎可以肯定每位用户的综合浏览量会发生变化。

  5. 客户端崩溃。对于客户端软件(例如Office Word / PowerPoint / Excel,Adobe Reader)或移动应用程序(例如Facebook,LinkedIn,Minecraft,Netflix),崩溃率是一项至关重要的指标。除了计数指标(每用户崩溃数)以外,还经常使用一个指标(用户软件是否崩溃了?),该指标在所有用户中平均,因为该指标具有较低的方差,因此可以较早显示出统计意义。

不同的团队可能会交流哪些指标是他们的目标,推动者和护栏指标。例如,虽然大多数团队可能会使用规范的目标,驱动和护栏指标,但基础架构团队可能会使用绩效或组织的护栏指标作为他们的目标(并将产品团队的目标和驱动指标用作他们的安全栅)。就像驱动指标一样,建立护栏指标和目标指标之间的因果关系也很重要,如第5章所述。

补充 2:可博弈性

目标指标和驱动指标必须难以博弈:给定一个数字目标时,人类可能会非常聪明,尤其是当这些指标与奖励挂钩时。历史中有许多案例:

这些示例说明了谨慎选择指标的重要性,但是这在在线领域中是如何表现的呢?一种常见的情况是将短期收入用作关键指标。可以通过提高价格或在增加广告来增加短期收入,而这两种情况都可能导致用户放弃该网站以及客户LTV下降。在考虑指标时,客户LTV是有用的指导原则。更一般地,许多不受约束的度量标准是可博弈的。衡量限制在页面空间或质量上的广告收入的指标是确保高质量用户体验的更好指标。在没有质量限制的情况下,总是可以解决有些查询没有返回结果的问题,因为可以返回一些乱七八糟的结果充数。

通常,我们建议使用衡量用户价值和行动的指标。避免使用一些服务器端发出的,而用户经常忽略的一些行为(横幅广告的计数是虚假指标,而点击广告则表明潜在的用户兴趣)。在Facebook,用户“喜欢”是一个例子,它既可以捕获用户的操作又可以衡量用户的体验。

上一篇 下一篇

猜你喜欢

热点阅读