显著性和统计功效
2019-10-12 本文已影响0人
大吉岭猹
参考协和八——说人话的统计学
相关链接:
https://mp.weixin.qq.com/s/yIL8xNEJqMUhwSeeb9g9Pw
https://mp.weixin.qq.com/s/HlX3qHKR8dn3C5SDFjruQw
https://mp.weixin.qq.com/s/mEPA_ChhOLn4xayR_LO9Yg
https://mp.weixin.qq.com/s/XtTGLFEk5KjnXQ9FtEoTKA
https://mp.weixin.qq.com/s/LQUiVbuMrpXw6cST9jbUyw
1. p值
- p值是什么
- 在假定原假设为真时,得到与样本相同或更极端结果的概率。
- p值不是什么
- p值不是原假设为真的概率,也不是备选假设为假的概率
- p值并不能代表你所发现的效应(或差异)的大小
- 0.05是一个历史遗留产品
- 在某些领域或话题的研究中,由于犯第一类错误的成本很高,因此可以选择更低的⍺(比如0.01、0.001等)。(想想在其他因素不变的情况下这意味着统计功效是降低了还是提高了?降低了。)
- 相反,在某些研究中,则可以把显著性水平⍺稍稍放宽一些(一般为0.1,大于0.1的情况非常少见)。我们偶尔能在科学文献中看到作者汇报p值大于0.05但小于0.1的结果,一般称这样的结果“趋向统计学意义上的显著性”,实际上就是放宽了⍺。
2. 统计功效
- 统计功效指的是:如果我们感兴趣的效应或差异的确存在,在给定的显著性水平的规定下,我们能够正确地拒绝原假设的概率。
- 此处引入统计功效是为了估计实验所需的数据量。利用统计功效进行数据量的估计,称为功效分析。
- 顺带提一下第一类错误(弃真错误)和第二类错误(存伪错误),犯第一类错误的概率一般记为α,犯第二类错误的概率一般记为β,在p值足够小时才能拒绝原假设正是为了尽量避免第一类错误的发生,而统计功效的值是1-β,一般定为0.8-0.9。
2.1. 影响统计功效的因素
- 效应的大小
- 数据或样本量的多少
- 数据中包含的“噪音”水平
在实际应用中,由于效应大小和噪音水平必须互相比较才有意义,因此通常将两者相除,计算出标准化的效应大小,从而将两个量合并成为一个量。
- 显著性水平
2.2. 功效分析
- 统计功效(1-β),标准化的效应大小(ES),样本量(N),显著性水平(α)四者知三推一。
- 常用的估计效应大小的方法
- 试点研究
- meta分析:对与计划进行的研究话题、方向、对象相近的已发表的研究进行全面细致的回顾,合理推算将要进行的研究可能获得的效应大小。
- G*Power软件
2.3. 如何提高统计功效
2.3.1. 增加数据量
- 增加比较容易获得的组别的样本量。 但当其中一组的样本量达到另一组两倍时,再增加就没有太大效果了。
- 尽可能减少数据的损失。 特别是在长期跟踪回访或重复实验的纵向研究中。
2.3.2. 放宽显著性水平的要求
- 报告p值在0.05和0.1之间的结果。 但这只在一些特殊情况下可行。
- 使用单侧检验。 同样的实验,使用单侧检验得到的p值将会是双侧检验的1/2,但是使用单侧检验,必须有很强的理论基础,能够支持我们对效应方向的假设,而且这一决策必须在分析数据前做出,切不可在双侧检验分析完之后发现p值不够小,再来改用单侧检验。
2.3.3. 增加效应大小(效果量)
- 加大干预强度。
- 对极端群体作比较。 对于无法直接控制感兴趣的自变量的研究(如回顾性研究),可以采取对连续性自变量“取两头,弃中间”的办法。
- 引进更多控制变量。
- 采用重复测量或组内设计。 在可行的情况下,采用重复测量(在同一组受试者上分别实施干预和对照)设计能够有效降低组间设计(在不同的受试者上进行不同的干预)中由于个体不同所带来的随机噪音。