【NN/g译文】用研中的效度Validity
一、效度和信度
![](https://img.haomeiwen.com/i889896/56c97e1ae1896eb8.png)
1)效度 Validity
准确性。与真实水平、真实情况做比较。
指一个测验是否能测量出所要测量事物的程度。
2)信度 Reliability
稳定性、一致性、可靠性。测试多次的结果差不多。
信度高,说明重复做更多的实验也会得到同样的结果。也就是说,结果不是随机的。有很多统计的方法可以计算研究的可信度。用研中提高信度的主要方法是测试更多的人。
效度高,信度一定高。
二、内部效度和外部效度
研究设计中有2种错误
1)内部效度错误
在研究中,存在诱导因素使得参与者倾向于某种反应或行为。
2)外部效度错误
在研究中获取到的行为或情况,并不是目标用户的典型的行为。
![](https://img.haomeiwen.com/i889896/792e9e299bf0199c.png)
三、用研中的内部效度
1)缺少内部效度的案例
假设有一项研究,需要对比网站A和B。在研究中,先让参与测试的人员浏览网站A并完成任务,再让他们浏览网站B并完成相同的任务。在这个研究中得到的结果是准确的吗?能够反应真实情况吗?能够反馈出网站A&B哪个更好吗?
不一定。
这个研究任务的设计对网站B会更有利,因为当参与者开始浏览网站B时,他们已经适应了测试的环境和任务。
举例:测试目标为租车网站,当测试者浏览网站B时,他们已经知道什么是LDW汽车保险、对租赁流程的步骤有一定的了解、也知道测试任务希望测试者做什么、以及如何完成任务。
这个案例便是忽略了内部效度,常见的解决方法是轮流更换网站的测试顺序,让50%的用户先浏览网站B。
2)定性研究中的内部效度缺失
内部效度问题在定性和定量研究中都存在。
在定性研究中,主持人可能无意间就会诱导参与者做出某种反应。
内部效度缺失举例:就算是仅仅问了“你有没有觉得结账很困难”这个简单的问题,就会导致调研无效。因为参与者接收到了“困难”这个概念,便会马上想到结账过程中遇到的不顺畅部分,调研的结果会是:参与者比实际上更加认同“结账困难”这个观点。
3)定量研究中的内部效度缺失
在定量研究中,内部效度的缺失,会使得研究结果往某个方向偏离,不能反应真实情况。
举例:在一项标定研究中,你发现redesign后的网站比旧的网站完成相同任务时所需时间更短,你可能会推测:新的网站更好。但实际情况可能是你才用了不同的研究方式:旧网站你用了发声思考,新网站你没有使用发声思考。发声思考需要耗费更多的时间。
在这个例子中,研究方式是一个混淆变量——它可以影响研究结果,但是设计任务时却没考虑到。
四、用研中的外部效度
外部效度指的是用研设计的自然程度。如果研究的设计和参与者都能代表实际使用情况,那么该研究就有外部效度。
外部效度缺失举例:测试一个专为老年人设计的网站,招募的参与者却不是老年人;测试移动端的功能,但是使用桌面端来测试。
五、用研中如何提高效度
1、提高内部效度
1)随机化任务顺序
![](https://img.haomeiwen.com/i889896/daf6030ab3272611.png)
不同的任务顺序会产生偏差。在一项研究中,第一个任务花费的时间更长,而且错误率会比平时更高;在测试的结尾阶段,任务可能受到参与者的疲劳的影响。
所以无论是定量还是定性研究,都尽量让任务的顺序随机。然而有时这个建议不可行,有的任务是有先后顺序的。
·为了降低测试前期任务的学习成本,可以准备1-2个热身任务,热身任务要与研究内容无关,只是为了让参与者熟悉测试环境和测试流程。
·简单的热身任务可以增强参与者的信心,让他们感到放松。
·分析测试结果时,请确保去除了热身任务
2)随机化、均衡化参与者
![](https://img.haomeiwen.com/i889896/6205ec4e9d601de5.png)
与上一条随机化任务顺序有关。有的任务顺序前后有相关性不能随机化,当测试2个网站时,可随机化、均衡化测试人员。
以上面举例的租车网站,随机安排参与者看到两个网站的顺序——一些参与者先看到网站A,另一些先看到网站B。
3)同一研究的不同场次中,控制变量。
关注一些可能影响研究结果的隐藏因素。
比如,一个研究是关于两个网站的,上午参与者一起进行网站A的测试,下午参与者一起进行网站B的测试。可能上午时间段,测试人员不会那么疲惫,表现更好。
或者同一个研究中,不同的场次不同主持人,某个主持人可能会无意间引导参与者的一些行为,或某个主持人另参与者更加放松、表现更好。
在做用研的计划时,要考虑内部效度。认真记录用研的条件(如任务所使用的措辞、研究的方法、是否使用了发声思考等等),确保同一个研究中,不同场次的研究条件都相同。否则将会影响研究的效度。
2、提高外部效度
4)招募有代表性的参与者,包括人口统计学和用户目标都有代表性。
5)尽量让测试场景还原真实的日常环境。测试汽车修理APP时,真实场景时在仓库而不是会议室。不同的环境因素对可用性产生不同的影响,包括光线、手上的脏污、放置手机的位置、空闲的时间、可用的工具等。
从某种意义上讲,任何用研都缺少外部效度。真实的使用场景,不会有陌生人在背后监视我们的使用情况。在某种程度上,甚至可以认为远程研究比面对面研究更有效,因为参与者置身于他们的日常生活环境,他们的行为会更自然、操作更坚定。
另一个常见的缺乏外部效度的情况是对移动端的测试——现实中使用移动端不会坐在办公桌前、连着Wi-Fi、不被打断。不过这种测试任务也是可以接受的,因为移动端的测试环境最佳的情况下,仍然有可用性问题的话,那么设计就需要优化。解决了这些问题后,仍然需要在更真实的条件下重新测试。
当你发现被迫牺牲了外部效度时,你需要思考:如果在现实环境下重复研究,是否会得出同样的结论。
结论
用研没有计划好可能会会导致结论无效,浪费时间和精力。关注研究的内部效度和外部效度,尽量招募有代表性的参与者,尽量让测试场景与现实场景一致,在测试过程中保持中立、不要诱导参与者的行为。
原文地址:https://www.nngroup.com/articles/internal-vs-external-validity/