统计模型-线性回归
1.什么是模型
模型就是对数据进行的高度概括
其作用是判别数据的合理性,并对数据做预测。
2.回归分析
确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
回归:一组值向均值的回归,也可用于一组值向预测值的回归。
分类:
1)一元线性回归:自变量为1个,且为直线模型拟合
2)多元线性回归:自变量为N个,但回归方程仍为一次方程,拟合模型为一个平面或超平面
3)非线性回归:拟合曲线非直线,有部分非线性回归可以转化为线性求解,模型成为广义线性模型
3.线性回归
自变量和因变量之间建立一个线性关系模型,结果变量Y为因变量,用来预测结果变量的X为自变量。
自变量:研究者主动操纵,从而引起因变量发生变化
因变量:被观测或者记录的量,会随着自变量的变动而变动,因变量必须是一个连续变量。
4.线性回归模型需满足的条件
1)线性关系:自变量和因变量之间存在线性关系
2)多变量正态性:所有的变量都满足正态分布
3)没有,或者有一点点多重共线性:自变量相互独立,残差的平均值要与其他的自变量独立
4)没有自相关:数据中没有或有一点点自相关
5)常数方差:同方差性
5.残差
分析模型合理性的重要指标
残差应满足以下假设
1)残差独立同分布,且无自相关性
2)残差和自变量X不相关
3)残差的均值为0,方差为常数
6.模型的诊断
1)对假设的检验
残差应满足:独立同分布,和自变量X不相关,均值为0,方差为常数
2)显著性检验
回归方程显著性F检验,看所有自变量X从整体上对随机变量Y是否有明显的影响。
若 P值<0.05,自变量全体对因变量产生线性影响。
回归系数显著性t检验:看单个自变量对Y是否有明显影响。
若 P值<0.05,自变量和因变量有显著的线性关系。
对于一元线性回归,以上两种检验是等价的。
3)拟合优度
用于检验回归方程对样本观测值的拟合程度
样本决定系数R2=SSR/SST=1-SSE/SST(R2属于[0,1])
R2越接近1,表明回归拟合的效果越好
R2越接近0,表明回归拟合的效果越差
7.线性回归分析步骤
1)根据预测目标,确定自变量和因变量
2)绘制散点图,确定回归模型类型
3)估计模型参数,建立回归模型
4)对回归模型进行检验
5)利用回归模型进行预测