统计分析与数据挖掘

统计学(76)-线性回归的应用条件

2020-04-10  本文已影响0人  Zhigang_Han
1、自变量与因变量应该大致呈线性

(1)图1:某研究分析了272名儿童的年龄与白细胞值、胸水蛋白的关系,下图分别绘制了它们的散点图。


图1. 自变量与因变量关系

(2)图2散点图可能无法显示混杂因素的影响,此时更专业的判断线性的方法是绘制偏残差图(Partial Residual Plot) 。偏残差图相当于校正了其他因素以后自变量与因变量的关系,能够更准确地判断自变量与因变量是否为线性关系。


图2. 普通散点图与偏残差图的对比
如果只是绘制x对y的散点图,则显示二者为正向关系;而绘制(校正变量z后的)偏残差图,则显示为负向关系。这说明偏残差图更能准确地提示二者的关系。
2、残差应满足正态分布

第一,绘制残差的直方图或Q-Q图,看其是否满足正态分布。
第二,绘制以因变量预测值为横坐标、以残差为纵坐标的散点图。

3、残差应满足方差齐性

如果总的来说残差并没有随着预测值的增加而增大(或减小),就可以认为其满足方差齐性。

4、残差应满足独立性

(1)基于人群个体的测量数据,其残差大都是满足独立性的。但如果观测数据存在某种自然顺序(如时间顺序),则此时有可能违背这一条件。


数据的散点图和标准化残差图

利用残差图判断是否违背独立性的基本特征是:残差的正或负往往是连续的,如连续几个正的残差,然后连续几个负的残差。在上图中,其残差顺序为“正正负正正正正正负负负正“,可以看出,有点符合这种特征(不过不是很明显,因为数据太少)。
(2)利用残差的正负序列来判断是否独立,其主观性太强,实际中更常用的是DurbinWatson检验。它通过一个统计量d来证明无效假设(相邻误差的相关系数=0) 是否成立。当相关系数=0时,d值接近2; 当相关系数=1时, d 值接近0。因此,Durbin-Watson 检验就是通过d值偏离2的程度来判断是否存在相关性的。


Durbin-Watson
上图中的数据进行Durbin-Watson检验。可以认为相邻误差不满足独立性,自相关系数为0.4767,且有统计学意义(P=0.0094)。
5、自变量之间应是相互独立的,不存在共线性
6、自变量是固定的,因变量是随机的

总结:条件合理,往往意味着结果真实性、可靠性往往较高。但是,如果数据本身就很复杂,那没有办法,必须考虑复杂的方法。

上一篇下一篇

猜你喜欢

热点阅读