[TOCE] 22 P2-C6-S2 把指标组织起来

2021-05-07 本文已影响0人数科每日

Trustworthy Online Controlled Experiments Part 2 Chap 6

制定度量标准：原理与技术

现在，你应该可以描述出来你想象中成功的样子，以及达到成功所需要的驱动因素。接下来，开始制定指标。这是我们将定性概念应用于具体的，可量化的定义的时候。有些指标，例如短期收入，答案可能显而易见。但是，公司如果成功定义为长期收入，这比当下的收入更难衡量。其他难以衡量的成功概念包括用户幸福感和用户信任度。

制定目标和推动因素时，要遵循的关键原则是：

目标指标：

简单：容易理解和被人们接受。
稳定：必在每次启动新的实验时都更新目标指标。

驱动指标：

和最终目标保持一致： 重要的是要保证驱动指标和最终的指标指向一致。一种常用的验证技术是明确地为此目的进行实验。我们将在下面进一步讨论。
可执行的： 团队必须感觉到他们可以利用某些方法（例如产品功能）来驱动这些指标。
敏感的： 驱动指标是目标指标的领先指标。确保他们足够敏感以衡量大多数计划的影响。
抗博弈的： 由于驱动指标和目标指标都可以衡量成功，因此请不要轻易将它们设为可博弈的（两种指标都可以达到同一个目的，那么就可以牺牲一个，保证另外一个）。考虑一下激励因素，度量标准可能会导致什么行为，以及如何进行权衡。请参阅本章后面的补充材料：可游戏性。

牢记这些原则，这里有一些有用的技术和制定指标的注意事项：

用低可扩展性方法中的假设来引发创意，然后在可扩展的数据分析中对其进行验证以确定精确的定义（请参见第10章）。例如，用户的幸福感或用户任务成功可能只能通过用户调查直接测量，而这种方法是不可扩展的。但是，我们可以进行调查或用户体验研究（UER）研究（请参阅第10章），以观察通常与成功和幸福相关的行为数据。然后，可以使用日志数据分析来大规模探索那些行为模式，以确定哪些指标可以用作高级指标。一个具体的例子是跳出率，跳出率是指只在网站上停留很短时间的用户比例。我们可能会注意到短暂停留与不满有关。将观察结果与数据分析相结合，有助于精确定义指标所需的确切阈值（阈值应为1次网页浏览还是20秒？）（Dmitriev和Wu，2016； Huang，White和Dumais，2012）。
在定义目标或推动因素时要考虑质量。如果用户立即单击“后退”按钮，那么说明用户很可能对搜索结果不满意。如果用户积极参与该网站，则新用户注册是“良好”注册；如果LinkedIn个人资料包含足够的信息来标识用户，例如教育经历或当前和过去的职位，则它是“良好”的个人资料。将质量概念（如通过人工评估（请参见第10章））纳入目标和驱动因素，将更有可能使他们成为最终决策的依据。
在将统计模型合并到定义中时，至关重要的是要随着时间的推移保持模型的可解释性和有效性。例如，要衡量订阅的长期收入，通常会根据预测的生存概率来计算生命周期价值（LTV）。但是，如果功能过于复杂，客户可能因为无法理解而拒绝购买这套系统，当某些指标突然下降而需要寻找原因时，解释性差的模型会让调查变得困难。一个例子是Netflix使用分区的观看时间作为驱动指标，因为它们是可以解释的，并且可以用来代表用户存留率（Xie and Aurisset 2016）。
有时，准确测量不想要的东西（例如用户不满或不满）可能要比测量您想要的东西容易。例如，用户必须在网站上停留多长时间才能被视为“满意”？在任务型的网站（如搜索引擎）上，如果用户访问搜索结果网站很短, 则可能意味着用户不满意搜索结果。也就是说，长时间的访问可能意味着搜索结果不错，用户正在看结果；或者他们正在努力去寻找结果，并且实际上感到沮丧。这样，否定指标可用作护栏或调试指标。（因为正向指标---用户长时间的访问，既可能是好事，也可能是坏事。而短时间访问，肯定是坏事。）
永远记住指标本身其实是一个代理；每个指标都曾经是失败的案例。例如，搜索引擎可能希望使用CTR来衡量用户参与度，但仅盯住CTR可能会导致点击诱饵增加。在这种情况下，必须创建其他指标来衡量极端情况。在此示例中，一种办法是使用人工评估（请参阅第10章）作为衡量相关性和抵消奖励点击诱饵趋势的指标。

评估指标

我们概述了制定度量标准时应遵循的几个原则。大多数度量标准评估和验证都在制定阶段进行，但是随着时间的推移，需要不断进行评估。例如，在添加新指标之前，需要评估与现有指标相比，新指标是否可以提供其他信息。生命周期价值（LTV）指标必须随时间进行评估，以确保预测误差保持在较小范围内。必须定期评估严重依赖于实验的指标，以确定它们是否会导致博弈。

最常见和最具挑战性的评估之一是建立驱动指标与组织目标指标之间的因果关系，即该驱序指标是否真正有助于达成目标指标。在营利性组织中，卡普兰和诺顿写道：“最终，记分卡上所有度量的因果关系都应与财务目标联系起来”（卡普兰和诺顿，1996年）。 Hauser和Katz（Hauser and Katz 1998）写道：“公司必须确定团队今天可以影响的指标，但最终会影响公司的长期目标。” Spitzer（Spitzer 2007）写道：“度量框架最初由关键度量及其因果关系的假设（假设）组成。这些假设随后将通过实际数据进行检验，并可以得到确认，否认或修改。”由于我们通常不了解潜在的因果模型，而仅具有假设的心理因果模型（瞎猜），因此这一要求最难以满足。

以下是一些用于解决因果关系验证的高级方法，您也可以将其应用于其他类型的指标评估：

利用其他数据源（例如调查，焦点小组或用户体验研究（UER）研究）来检查它们（指标）是否都指向同一方向。
分析观测数据。虽然很难用观测数据建立因果关系（如我们在第11章中讨论的），但仔细进行的观测研究可以找出无效的假设。
是否在其他公司进行了类似的验证。例如，几家公司共享了研究，以显示网站速度如何影响收入和用户参与度（请参阅第5章）;另一个例子是研究显示应用大小对应用下载的影响（Reinhardt 2016，Tolomei 2017）。
进行实验，其主要目标是评估指标。例如，要确定客户忠诚度计划是否增加了客户保留度并因此增加了客户LTV，一边运行实验，一边缓慢推出客户忠诚计划，并测量保留度和客户LTV。需要提醒的是，这些实验通常会检验相对狭窄的假设，因此仍然需要概括所得的结果。
使用历史实验作为评估新指标的“黄金”样本。这些实验必须被充分理解和信任，这一点很重要。我们可以使用这些历史实验来检查敏感性和因果关系（Dmitriev and Wu 2016）。

请注意，将驱动度量标准与目标度量标准相关联的挑战也适用于护栏度量标准。请参阅第5章中的示例，该示例说明了如何进行实验以测量延迟（护栏指标）对目标指标的影响。

指标的演进

指标定义会随着时间的推移而发展。即使概念保持不变，其定义仍可能会更改。之所以会发生变化，可能因为：

业务发展：该业务可能已经成长并创建了新的业务线。这可能导致业务改变其重点，例如从引入新客户，转为保留老客户。一种特定类型的演变是用户群的转变。在计算指标或进行实验时，所有数据均来自现有用户群体。特别是对于早期产品或初创企业，早期用户群体可能无法代表企业长期的用户群体（Forte 2019）。
演变的环境：竞争格局可能已经改变，更多的用户可能已经意识到隐私问题，或者新的政府政策可能正在生效。所有这些变化都可以改变业务重点或观点，从而改变使用度量标准进行度量的范围。
对指标的理解也在不断发展：即使在开发阶段仔细评估过的指标，在观察其实际性能时，也可能会发现需要改进的地方，从而可以提高粒度或制定不同的指标。哈伯德（Hubbard，2014年）讨论了信息的期望值（EVI），该概念捕捉了更多信息如何帮助您做出决策。花大量时间和精力调查指标并修改现有指标具有很高的EVI。敏捷和衡量还远远不够，必须确保指标可以指导组织朝着正确的方向发展。

某些指标的发展可能比其他指标更快。例如，驱动指标，护栏和数据质量指标的发展可能比目标指标更快，这通常是因为这些指标是由方法改进而不是基本业务或环境演变所驱动。

由于指标会随着时间的推移而发展，因此随着组织的发展，应该在处理指标变化时变得更加结构化。具体来说，需要基础架构来支持对新指标的评估，相关联的架构更改，所需数据的回填等等。

其他的资源

有几本关于指标，度量和性能指标的好书（Spitzer 2007，Parmenter 2015，McChesney，Covey和Huling 2012）。 Spitzer指出：“使测量如此有效的原因是它能够采取有根据的行动，从而为人们提供了在正确的时间进行正确的行为的机会。”在对照实验的背景下，由于“干预”是对每个指标产生影响的原因（极有可能产生具有高度统计意义的显着效果），因此制定关键指标是对某个想法（“处理”）的价值在某个坐标轴上的评估。

补充 1：护栏指标

护栏指标有两种类型：与可信赖性相关的护栏指标和组织护栏指标。与可信赖性相关的护栏指标将在第21章中详细讨论，因为这些对于确保实验结果可信赖是必要的。在这里，我们讨论组织护栏指标。

正如我们在第5章中讨论的那样，延迟增加甚至几毫秒都可能导致收入损失和用户满意度下降。因此，延迟通常被用作护栏指标，因为它是如此敏感，尤其是相对于收入和用户满意度指标而言。大多数团队通常都在尝试新功能，这样做时，他们会检查延迟并尝试确保其功能不会增加延迟。如果新功能会导致延迟，则将引发有关权衡的讨论，例如新功能的影响是否值得延迟增加带来的影响，是否有方法可以缓解，或是否有办法改善新功能的影响。

许多组织护栏指标类似于延迟，比较敏感，这些指标会影响目标或驱动指标，大多数团队的工作不应该影响这些指标（很重要，所以不能碰）。此类指标的示例包括：

HTML响应的延时。在网站上，服务器响应延时代表引入了大量代码（例如JavaScript）。对这样的更改发出警报是发现草率优化代码的好方法。
每页JavaScript错误。降低页面质量（即增加页面上的平均错误数量）是一种会影响发布的严重问题。按浏览器进行细分有助于识别JavaScript问题是否与浏览器有关。
每用户收入。一个团队在产品的某一部分（例如相关性）上工作，可能没有意识到他们正在损害公司收入。每位用户收入通常具有较高的统计差异，因此作为护栏不敏感；更敏感的指标可能是不错的选择，例如每用户收入指标（用户是否有收入：是/否），每用户收入上限（超过 $X的上限为$ X）以及每收入页面（有更多页面单位，尽管必须注意正确计算方差，请参阅第22章）。
每个用户的浏览量。由于很多指标都是基于页面为单位统计的，因此每用户的综合浏览量的变化可能意味着许多指标发生了变化。关注分子是很自然的，但是如果每个用户的浏览量发生变化，则是分母发生变化。如果更改是意外的，则值得仔细分析原因（Dmitriev et al.2017）。请注意，每位用户的综合浏览量不一定在所有情况下都可以用作护栏；例如，如果您要测试无限滚动功能，则几乎可以肯定每位用户的综合浏览量会发生变化。
客户端崩溃。对于客户端软件（例如Office Word / PowerPoint / Excel，Adobe Reader）或移动应用程序（例如Facebook，LinkedIn，Minecraft，Netflix），崩溃率是一项至关重要的指标。除了计数指标（每用户崩溃数）以外，还经常使用一个指标（用户软件是否崩溃了？），该指标在所有用户中平均，因为该指标具有较低的方差，因此可以较早显示出统计意义。

不同的团队可能会交流哪些指标是他们的目标，推动者和护栏指标。例如，虽然大多数团队可能会使用规范的目标，驱动和护栏指标，但基础架构团队可能会使用绩效或组织的护栏指标作为他们的目标（并将产品团队的目标和驱动指标用作他们的安全栅）。就像驱动指标一样，建立护栏指标和目标指标之间的因果关系也很重要，如第5章所述。

补充 2：可博弈性

目标指标和驱动指标必须难以博弈：给定一个数字目标时，人类可能会非常聪明，尤其是当这些指标与奖励挂钩时。历史中有许多案例：

俄罗斯著名的超重量级举重运动员瓦西里·阿列克谢耶夫（Vasili Alexeyev）每次打破世界纪录时，都会被奖励。结果是，他一次又一次刷新了世界纪录，每次提高1~2克，从而最大程度地提高了他的报酬（Spitzer 2007）。
一家快餐店的经理努力使餐厅的“鸡肉效率”指标（卖出的鸡肉数量与被丢弃的鸡鸡数量之比）达到100％的完美水平。为了做到这点，他命令餐厅只有在客户点了鸡肉以后才开始做。他获得了奖励，但由于客户等待时间长而导致该餐厅倒闭（Spitzer 2007）。
一家公司向其中央仓库备件人员支付了奖金，以奖励他们维持较低的库存。结果，仓库中没有必要的备件，导致工厂生产经常暂停（Spitzer 2007）。
英国一家医院的管理人员担心在急症室的病人等待治疗时间过长。他们决定测量从患者登记到被医生首次查看的时间。为了优化指标，护理人员开始要求医护人员将患者留在救护车中，直到房医生准备去看望他们，再转入病房，从而缩短了“平均治疗时间”（Parmenter 2015）。
在河内，在法国的殖民统治时期，为了消灭老鼠，政府推行了一个政策，上交老鼠尾巴，就会获得奖励。结果，它导致了老鼠的饲养（Vann 2003）。关于眼镜蛇，一个类似的例子，尽管可能是轶事，传说，英国政府为德里的每只死眼镜蛇提供赏金，胆大的人们开始为收入而繁殖眼镜蛇（维基百科贡献者，《眼镜蛇效应》 2019）。
在1945年至1960年之间，加拿大联邦政府向孤儿院每天每个孤儿支付70美分，精神病医院每天每名患者支付$ 2.25。据称，多达20,000名孤儿被错误地证明患有精神疾病，因此天主教堂每天每位患者可以获得2.25美元的收入（维基百科贡献者，数据挖掘2019）。
通过拨打消防电话的数量来资助消防部门，旨在奖励从事最多工作的消防部门。但是，这可能会使他们不愿参加预防火灾的防火活动（Wikipedia贡献者，Perverse Incentive 2019）。

这些示例说明了谨慎选择指标的重要性，但是这在在线领域中是如何表现的呢？一种常见的情况是将短期收入用作关键指标。可以通过提高价格或在增加广告来增加短期收入，而这两种情况都可能导致用户放弃该网站以及客户LTV下降。在考虑指标时，客户LTV是有用的指导原则。更一般地，许多不受约束的度量标准是可博弈的。衡量限制在页面空间或质量上的广告收入的指标是确保高质量用户体验的更好指标。在没有质量限制的情况下，总是可以解决有些查询没有返回结果的问题，因为可以返回一些乱七八糟的结果充数。

通常，我们建议使用衡量用户价值和行动的指标。避免使用一些服务器端发出的，而用户经常忽略的一些行为（横幅广告的计数是虚假指标，而点击广告则表明潜在的用户兴趣）。在Facebook，用户“喜欢”是一个例子，它既可以捕获用户的操作又可以衡量用户的体验。