直线回归与相关
解决上一篇文章留下的小尾巴
在对“校准验证”数据的处理评价中,其实是运用了与检验工作密切关联的统计方法,就是 直线回归。
这也是我们检验人所必须掌握的统计计算方法之一。内容也最枯燥。本篇会忽略大部分的计算公式,讲好原理,计算呢就交给已经做好的excel表格吧,直接填入数据即可。
以下内容大部分来源于王治国等著的《临床检验方法确认与性能验证》。
《卫生统计学》可能真的一点用没有。
直线回归
医学上,变量之间虽然有一定的关联,但这种关系不是十分确定的,这种不确定的关系称为回归关系。
直线回归(linear regression)在于找到一条最能描述变量间非确定数量关系的直线,以 y=a+bx 表示。a 为截距(intercept),b 为斜率,其中 y 是指对应于某个确定的 x ,相应群体的 y 的平均值估计。
回归线的确定主要依据“最小二乘原理”,使估算的 y 值与实测 y 值间的误差达到最小。
误差与可信区间
标准估计误差
直线回归中,各实际值 y 与由回归方程计算出的估计值 y^ 之间的误差,为估计误差(error of estimate )。其中 y^ 决定于均数及回归系数,自由度为 n-2。
标准估计误差回归系数的标准误
回归方程中,回归系数 (b) 是由样本求出的,它是对总体回归系数 β 的估计值,二者之间的误差可以标准误 Sb 表示。
回归系数的标准误通过 Sb 便可求出 总体回归系数 β 的可信区间,95%可信区间的计算公式为
总体回归系数的可信区间式中:t 值的自由度为 上述估计误差的自由度,为 n-2 ,查 t 值表得。
截距 a 误差和总体参数 a 的可信区间
同上,误差计算公式略复杂,可信区间求解方式相同。
以上标准误可运用 Excel 表格中的LINEST功能求得
计算方法具体参见“线性回归”表格文件,感谢不明网友的热心提供。(实际是网上下载的)
分享度盘:链接:https://pan.baidu.com/s/1KvIXlPQUj-X8k25RS7nPcQ 密码:k9i3
回归系数和截距的统计学意义检验
由于抽样误差,从 β =0 的总体(即总体并不存在回归关系)中得到的样本回归系数可能并不等于0 ,因此,求得不等于零的回归系数后,也不能立即认为总体回归系数不等于零。
考虑到抽样误差问题,需要做 β 是否等于零的检验。
回归系数的统计学意义检验,可用 t 检验,也可用方差分析。t 检验较为简单。
计算 t 值 t = b/ Sb
由自由度= n-2,通过 t 值表作出判断,若求得 t 值> 所查得 t 值,则 P<0.01,拒绝 B=0的假设,回归系数有统计学意义,认为总体中相应两个变量间有直线回归关系。
截距的统计学意义检验同理。
书中还提到比如“两个回归系数差别的统计学意义检验”等,在此不一一阐述(太复杂)。
相关
这个概念在平时工作中用得最多,用错的机会也很多。
相关系数说明两个变量间关系的密切程度,回归方程说明两个变量间的数量关系,两者说明的问题不同,但又是有联系的。
由于相关系数的计算及统计意义检验比较方便,所以我们在作回归分析以前,一般先作相关分析。因为只有在相关有统计意义的前提下,求回归方程及回归线才有意义
强调一点吧,实际工作中可能会用错。
方法比对中,相关系数(r)用于指示所测样本范围是否足够宽,以尽可能降低一些误差(?)的影响,而不是简单说r>0.99便认为方法之间无显著差异。
只有取样范围够宽的情况下,才可通过线性回归的方式进行偏差估计。否则只能通过其他方式进行比对 。
还有,统计方法只是一种工具,只是提供对误差的估计,而不是指示可接受性。这也是Westgard先生所极力倡导的观点。
The statistics don't directly tell you whether the method is acceptable, rather they provide estimates of errors which allow you to judge the acceptability of a method.
统计学不直接告诉你方法能否接受,而是提供误差的估计,由你自己去判断方法的可接受性。
Westgard.com网站提供了很多在线的统计工具,可直接使用,非常方便,自己做表什么的很麻烦的~
总觉得少写了点啥,先就这样吧!