【NN/g译文】用研中的效度Validity

2023-06-27 本文已影响0人是hoho呀

一、效度和信度

效度和信度

1）效度 Validity
准确性。与真实水平、真实情况做比较。
指一个测验是否能测量出所要测量事物的程度。

2）信度 Reliability
稳定性、一致性、可靠性。测试多次的结果差不多。
信度高，说明重复做更多的实验也会得到同样的结果。也就是说，结果不是随机的。有很多统计的方法可以计算研究的可信度。用研中提高信度的主要方法是测试更多的人。

效度高，信度一定高。

二、内部效度和外部效度

研究设计中有2种错误

1）内部效度错误
在研究中，存在诱导因素使得参与者倾向于某种反应或行为。

2）外部效度错误
在研究中获取到的行为或情况，并不是目标用户的典型的行为。

三、用研中的内部效度

1）缺少内部效度的案例

假设有一项研究，需要对比网站A和B。在研究中，先让参与测试的人员浏览网站A并完成任务，再让他们浏览网站B并完成相同的任务。在这个研究中得到的结果是准确的吗？能够反应真实情况吗？能够反馈出网站A&B哪个更好吗？

不一定。

这个研究任务的设计对网站B会更有利，因为当参与者开始浏览网站B时，他们已经适应了测试的环境和任务。
举例：测试目标为租车网站，当测试者浏览网站B时，他们已经知道什么是LDW汽车保险、对租赁流程的步骤有一定的了解、也知道测试任务希望测试者做什么、以及如何完成任务。
这个案例便是忽略了内部效度，常见的解决方法是轮流更换网站的测试顺序，让50%的用户先浏览网站B。

2）定性研究中的内部效度缺失

内部效度问题在定性和定量研究中都存在。

在定性研究中，主持人可能无意间就会诱导参与者做出某种反应。
内部效度缺失举例：就算是仅仅问了“你有没有觉得结账很困难”这个简单的问题，就会导致调研无效。因为参与者接收到了“困难”这个概念，便会马上想到结账过程中遇到的不顺畅部分，调研的结果会是：参与者比实际上更加认同“结账困难”这个观点。

3）定量研究中的内部效度缺失

在定量研究中，内部效度的缺失，会使得研究结果往某个方向偏离，不能反应真实情况。
举例：在一项标定研究中，你发现redesign后的网站比旧的网站完成相同任务时所需时间更短，你可能会推测：新的网站更好。但实际情况可能是你才用了不同的研究方式：旧网站你用了发声思考，新网站你没有使用发声思考。发声思考需要耗费更多的时间。
在这个例子中，研究方式是一个混淆变量——它可以影响研究结果，但是设计任务时却没考虑到。

四、用研中的外部效度

外部效度指的是用研设计的自然程度。如果研究的设计和参与者都能代表实际使用情况，那么该研究就有外部效度。

外部效度缺失举例：测试一个专为老年人设计的网站，招募的参与者却不是老年人；测试移动端的功能，但是使用桌面端来测试。

五、用研中如何提高效度

1、提高内部效度

1）随机化任务顺序

随机化任务顺序

不同的任务顺序会产生偏差。在一项研究中，第一个任务花费的时间更长，而且错误率会比平时更高；在测试的结尾阶段，任务可能受到参与者的疲劳的影响。

所以无论是定量还是定性研究，都尽量让任务的顺序随机。然而有时这个建议不可行，有的任务是有先后顺序的。

·为了降低测试前期任务的学习成本，可以准备1-2个热身任务，热身任务要与研究内容无关，只是为了让参与者熟悉测试环境和测试流程。
·简单的热身任务可以增强参与者的信心，让他们感到放松。
·分析测试结果时，请确保去除了热身任务

2）随机化、均衡化参与者

随机化参与者

与上一条随机化任务顺序有关。有的任务顺序前后有相关性不能随机化，当测试2个网站时，可随机化、均衡化测试人员。
以上面举例的租车网站，随机安排参与者看到两个网站的顺序——一些参与者先看到网站A，另一些先看到网站B。

3）同一研究的不同场次中，控制变量。

关注一些可能影响研究结果的隐藏因素。

比如，一个研究是关于两个网站的，上午参与者一起进行网站A的测试，下午参与者一起进行网站B的测试。可能上午时间段，测试人员不会那么疲惫，表现更好。
或者同一个研究中，不同的场次不同主持人，某个主持人可能会无意间引导参与者的一些行为，或某个主持人另参与者更加放松、表现更好。

在做用研的计划时，要考虑内部效度。认真记录用研的条件（如任务所使用的措辞、研究的方法、是否使用了发声思考等等），确保同一个研究中，不同场次的研究条件都相同。否则将会影响研究的效度。

2、提高外部效度

4）招募有代表性的参与者，包括人口统计学和用户目标都有代表性。

5）尽量让测试场景还原真实的日常环境。测试汽车修理APP时，真实场景时在仓库而不是会议室。不同的环境因素对可用性产生不同的影响，包括光线、手上的脏污、放置手机的位置、空闲的时间、可用的工具等。

从某种意义上讲，任何用研都缺少外部效度。真实的使用场景，不会有陌生人在背后监视我们的使用情况。在某种程度上，甚至可以认为远程研究比面对面研究更有效，因为参与者置身于他们的日常生活环境，他们的行为会更自然、操作更坚定。

另一个常见的缺乏外部效度的情况是对移动端的测试——现实中使用移动端不会坐在办公桌前、连着Wi-Fi、不被打断。不过这种测试任务也是可以接受的，因为移动端的测试环境最佳的情况下，仍然有可用性问题的话，那么设计就需要优化。解决了这些问题后，仍然需要在更真实的条件下重新测试。

当你发现被迫牺牲了外部效度时，你需要思考：如果在现实环境下重复研究，是否会得出同样的结论。

结论

用研没有计划好可能会会导致结论无效，浪费时间和精力。关注研究的内部效度和外部效度，尽量招募有代表性的参与者，尽量让测试场景与现实场景一致，在测试过程中保持中立、不要诱导参与者的行为。

原文地址：https://www.nngroup.com/articles/internal-vs-external-validity/