量化用户需求是伪命题 - The Illusion of Mea

量化用户需求是伪命题
——对任何声称能量化出用户所思所想的方法持怀疑态度
BY Alan Klement(alanklement.com 负责人)
翻译:Kevin嚼薯片
创新充满不确定性。因此,任何能保证确定性的东西都能吸引设计师和创新者。有一个说法是:用户的偏好和期望是可以用可靠和有效的方式去量化的。真是如此吗?统计理论和心理学给出的答案都很明显说:不是。
这篇文章将告诉你相关知识和理念,避免你落入去量化用户需求的陷阱中。
一个人需要管理的最重要的领域是未知和不可知,而成功的管理就是必须永远考虑到它们。
——W·爱德华兹·戴明
很少有人改变世界方面做得比戴明博士多。他使用数据和统计理论知识,帮助美国从农业匮乏之地变成世界粮仓。他把日本从二战灾区重塑成经济强国的过程中也发挥了关键作用。基于像TQM、QFD、六西格玛 和 精益理论 等定量数据的方法论,都会追溯到他。
不是所有东西都可以被计算的都能被量化,也不是所有能量化的东西都能被计算。
——威廉·布鲁斯·卡梅隆
不幸的是,很少有人能从像戴明这样的人身上吸取教训。以至于我们把工业时代的坏习惯带到了信息时代:定量数据被盲目追捧。导致许多人认为“用户需求”可以且应该被量化出来。
然而,像戴明博士等对统计理论和心理学有基本了解的人,他们知道,任何衡量用户偏好(期望结果)的方法都是不可靠且无用的。那些坚持这样声称的人,要么是井底之蛙,要么就是想给你推销什么。
这篇文章介绍了三个为什么用户需求不能被量化的主要原因:
- 一样东西能被数字表达,但不一定是定量的
- 用户期望(喜好)是不断变化的,很容易被操纵
- 价值是非线性的
有了这样的理解,你不仅会成为更好的创新者、设计师、企业家,还能增加创新成功率。
一个简单的事实是:所有的时间、金钱和技能都投入到新口味可口可乐的用户研究中,也无法衡量或揭示出用户对原口味可口可乐的深度和持久的情感依恋。
——可口可乐前首席执行官 唐纳德·基夫
一样东西能被数字表达,但不一定是定量的
我们经常看到这样的例子。事实上,就在前几天,我在经过赫尔辛基机场的时候也看到了(图1)。

诸如此类调查,并且使用李克特量表,构成了各种创新和用户满意度调查方法的基础。然而,关于这些调查和收集到的数据,那些精通统计和数字理论的人所不知道的是:
这些数字不是定量的值。相反,只是对质量的直截了当的描述。
这和我们去决定赛跑的输赢是一样的。我们对越过终点线的人给予直截了当的序号(图2)。如果没有人在我前面,我就是第一名。如果两个人在我前面,我就排在第三位。这些都是分类数据,这也是把“1”替换成“金牌”,把“3”替换成“铜牌”是完全没问题的原因。

另一点要注意的是分类和序数数据,它们之间的距离没有被算为数据的一部分。例如,你可能知道谁是第1、2、3名,但你不知道两者之间的距离(图3),第1名的人可能在60分钟内完成了比赛,而第二和第三名则分别是90和91分钟。

事实上,这些数字既不是量化度量,也不是表示它们之间的任何距离,这就是为什么一些研究调查会直接抛弃所有这些。相反,他们使用面部表情作为分类(图4)。这种方法更接近于我们如何看待使用的产品。

现在,用数字来描述用户偏好并没有什么错。只是需要知道这些数据是定性的,而不是定量的。它们不是价值本身,而是价值的描述。然而,大多数人要么忘记这个,要么不知道。所以他们会做一些不该做的事情。
有一个关于这的错误例子,来自于战略和安东尼·乌尔威克提出的结果驱动创新的方法。该方法包括“机会算法”:
重要性 +(重要性 - 满意度 )= 机会
这个公式犯了两大错误。
首先,在序数数据之间进行减法,这是不可行的。这就好比说,你从“金牌”中减去“铜牌”,从“快乐”中减去“悲伤”。仅仅因为我写了“4”而不是“非常重要”,就不能把“4”当成一个量化数字。这是你在第一或第二天的统计课程中就能学到的东西。
其次——甚至更糟——该方法建议您可以在不同类别的数据之间进行减法,这是不可行的。它等于:
X = 快乐 - 快速
X = 公里 - 加仑
在论文中,作者Gerry Katz引用麻省理工学院教授John Hauser的一句话总结:
[机会算法] 是伪科学。它混合了度量单位。没有工程师会做这样的事。
这个“量化”的错误是把数字分配给程度,这一点在《坚果壳》的作者Sarah Boslaugh中得到了进一步的强调:
问题:有什么证据去反击分析时使用李克特度量表和类似程度度量表作为区间数据?
解决方案:这没有自然的度量标准,例如态度和观点。我们可以设计出具有顺序的尺度(例如,可以根据协议的强度对反应进行排序)来量化这些结构,但不可能确定这些尺度上的点之间的间隔是否相等。因此,使用李克特度量和类似量表收集的数据应该在序数或分类层次上进行分析,而不是在区间或比率层面进行分析。
这是我们不应该犯基本的统计错误。
用户期望(喜好)是不断变化的,很容易被操纵
有些人可能坚持认为,定量测量可以与用户预期相结合。或者,虽然这些数据是分类的和序数的,但你至少可以找到数据集的中值和模式。然而,即使你沿着这条路线走下去,仍必须遇到第二点问题:
用户期望(喜好)是不断变化的,很容易被操纵
优秀的研究员和统计学家知道仅仅量化一些表面是不够的。你必须了解生成这些数据的系统。如何从系统中收集数据取决于系统的类型。例如:
- 医生在手术前不只会一次性地测量病人的心率和血压。相反,他们在手术过程中不断测量这些指标。
- 工人们和石油钻井平台不断地测量他们钻探的状况。
-制造商使用控制图表来衡量和改进他们的生产过程。
在这些环境中工作的人都明白,只略览数据是无法起到作用的。为什么?因为他们测量的东西总是在变化,很容易受到外界的影响。
这是用户期望结果和偏好的真实情况。任何与之相关的指标都是不断变化的,容易受到外界的影响。
例如,你和一些朋友在一家餐馆。女服务员走过来,你说:“我要牛排配土豆泥。”然后你的朋友说:“我要牛排配烤蔬菜。”一听到你的朋友,你就决定改变你点的餐:“好的,我也会点烤蔬菜,不要土豆泥。”即使你知道在菜单上有烤蔬菜,你还是先选择土豆泥。但不知什么原因,听了你的朋友点菜,你就换了。
这种情况经常发生。事实上,行为经济学家通常称之为“偏好反转”。
另一个例子是杂货店购物。许多研究已经证明,在人饥饿的时去购物会做出糟糕的决定,几乎总是买他们不需要或不想要的食物。这样的现象被称为“投射偏见”和“情绪温差”。这是因为我们今天想要的东西受到了我们现在的感觉的严重影响。这使得预测未来的用户需求变得非常不可靠。
一个反复出现的例子就是消费者对苹果的愤怒。当苹果从他们的个人电脑中移除软驱时,用户觉得苹果公司疯了。同样的道理也适用于移除光驱,更有甚者,从他们的iPhone上删除耳机插孔。用户们立即对这一变化感到愤怒,但随着时间的推移,他们忘记了这一点,甚至开始欣赏新的方式。
我们在预测我们会喜欢什么时非常不准确,这一点在卡纳曼和斯涅尔的文章《预测变化品味:人们知道他们会喜欢什么吗?》中的结论是:
人们只是不善于猜测他们的喜好会在一段时间内发生什么变化。
此外,用户偏好的测量取决于你提供的选项。这在产品定价时是常见的。你很少只看到一两个价格选项同时出现。通常都是有低、中、高价格的选项。有这样的一个技巧,你只要简单地在中等价格旁边放置一个高价格选项,就能使得中等价格的选项更有吸引力。这被称为“上下文相关偏好”。
这很棘手,在调查期间收集到的关于“用户需求”的数据都会改变。Norbert Schwarz在他的论文《调查认知方法论》中指出:
从早期的民意调查开始(1944年 坎特里尔;1951年派恩),调查研究人员发现,问题措辞、格式和顺序的细微变化会对最终获取的答案有着重大的影响。
这是因为人们对他们喜欢和不喜欢的东西并没有坚定主见。施瓦兹继续指出:
被调查者首先需要理解问题,从而了解其中的意思和他们需要提供的信息。如果这是一个程度问题,他们可能会从记忆中检索先前形成的程度判断,或者根据当时获取的任何相关信息,在现场形成判断。虽然调查研究人员希望获取的是前者,但通常给出的更有可能是后者。
而且,即使你能获取用户先前形成的判断,也会是不可靠的。诺贝尔奖得主丹尼尔·卡尼曼(Daniel Kahneman)指出:
卡尼曼认为,最直接评估体验效用的方法是询问用户在某一时刻的感受,他称之为“瞬间效用”。这是一个概念,卡内曼说,由边沁(英国哲学家)构想出来的。但是,因为研究人员对延伸的结果更感兴趣,他们更经常问的问题是基于记忆的,如:“它是怎么样的?”卡尼曼认为这是一个不同的问题,它反映了个体对过去整个事件的全面评价,而它可能不是对个体实时状态的直接评估。卡纳曼说,这种“记忆效用”在预测结果时并不是很好的参考指标。一个状态的“总效用”源自于测量个体实时快乐或者痛苦的基于瞬间的方法。
就引出了一个问题:当填写调查问卷或回应访谈问题时,用户是在检索并仓促形成的关于你问的内容的观点(记忆效用),还是在当场做出判断(瞬间效用)?
这一切意味着什么呢?是的,消费者偏好——包括对期望结果的重要性和满意度——总是在变化,而且是高度可塑的。这使得准确地测量它们是困难的,甚至是不可能的。
价值是非线性的
假设你选择相信你可以以数量数字代表偏好。并且确认你的测量方式是可靠的。你仍然有一个障碍需要考虑:
价值是非线性的
几百年来,价值被认为是线性的。这样做是有意义的,因为它的数学方式更简单。一个线性思考的例子是,如果我的财富翻倍,我的幸福就翻倍。但我们都知道,这一点都不真实。为什么?因为价值显然是非线性的。此外,收益的计算方法也不同于损失的计算方法。

图5显示了线性和非线性的价值。右边的图像显示了一个称为“累积前景理论”的模型。它是诸如“决策权重”、“边际效用递减”和“损失厌恶”等现象的组合。这意味着对人类来说,价值是非线性的。

这篇文章不会详细解释为什么这是真理。关于这个话题有无数的书和学术文章你可以查阅。需要指出的是,任何试图量化用户期望结果的人都必须考虑到这一现象。
我将用一个例子来说明。假设我给你一个标尺,每个数字之间的值都是不同的(图7)。

我的问题是:这个尺子在测量东西时有用吗?
当你使用李克特量表来测量用户偏好时,你使用的是不可靠的标尺——不管你知道与否。在客户的思想中,1和2之间的距离不同于4和5之间。图8中可视化展示了在测量用户偏好的范围内的李斯特规模。

这是什么意思?即使您可以为用户偏好分配一个定量的值,如果这些值没有改变,你仍然需要考虑到在值谱上测量时会下降的地方,然后进行补偿。
讨论和结论
如果我们能可靠地量化用户期望的结果,那就太棒了。这使得产品设计变得简单。我们只需要向潜在用户发送一份调查报告,获取结果,然后构建他们想要的东西。然而,这种事情是不存在的。
现实中的真实案例是怎样的,例如,Facebook提供了对评级偏好的简单选择。Facebook用了一个“喜欢”的按钮,同时也提供了一系列的表情符号来表达他们的偏好(图9)。

Google旗下的YouTube在几年前也意识到量化偏好的无用性:
似乎当说到收视率时几乎不代表什么。
因此,YouTube使用了从5星级到拇指向上/向下模型的评级系统。数据告诉他们,人们从逻辑上不会去评估他们对视频的喜欢程度。相反,他们只是把它看成一个5和一个1,或者甚至没有足够的关心投票结果(图10)。

最后,Netflix刚刚取消掉了它的5星评级系统,也改成大拇指向上/向下的模型。Netflix副总裁Todd Yellin评论道:
五星评价感觉非常过时。我们花了数十亿美元在我们生产和授权上,以及这些视频目录,这只是增加了一个新挑战。把人们真正想看的东西展示出来是非常重要的。
那么,我们应该如何量化用户的需求呢?答案很简单:不要去尝试。用户是人,不是机器人。你不能从他们那里得到测量结果并建立一个产品,就好像你在建造厨房的橱柜一样。
你所能做的,以及我为自己的产品所做的,就是用定性的数据对用户行为建模,然后使用定量数据来验证和调整这些模型。如果你确实使用了一个自我报告的评级系统,那么最好像Google和Facebook那样:要么提供一个拇指向上 / 向下选项,要么提供情感化的反馈机制。
如果把市场研究和客户调查成为用户的替代品——这在你设计产品时是非常危险的。“百分之五十五的测试人员报告用户对这个功能感到满意。这是从第一次调查的47%上升。”这很难解释,也有可能是无意误导。
优秀的发明家和设计师非常了解他们的用户。他们花费巨大的精力去形成这种直觉。他们学习和理解许多轶事,而不仅仅是你在调查中寻找平均数。他们的生活与产品设计融合在一起。
—— 杰夫·贝索斯 2017年的股东信
英文原文:https://jtbd.info/the-illusion-of-measuring-what-customers-want-3672a7892eb

下方【打赏】后可私信我邮箱地址,或添加我微信,会赠予你产品经理相关的学习资料。