线性回归总结
序
本次记录的内容包括几种线性回归的概念以及对比:
L1回归,L2回归,弹性回归。
概念
线性回归通过使用最佳的拟合直线(又被称为回归线),建立因变量(Y)和一个或多个自变量(X)之间的关系。
类型
一元线性回归和多元线性回归的区别在于,多元线性回归有大于 1 个自变量,而一元线性回归只有 1 个自变量。
学习策略
最小二乘
最小二乘法是一种拟合回归线的常用算法。它通过最小化每个数据点与预测直线的垂直误差的平方和来计算得到最佳拟合直线。因为计算的是误差平方和,所以,误差正负值之间没有相互抵消。
我们可以使用指标 R-square 来评估模型的性能
重点
- 自变量和因变量之间必须满足线性关系。
- 多元回归存在多重共线性,自相关性和异方差性。
-
多重共线性:
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。 -
无自相关性:
自相关性是指随机误差项的各期望值之间存在着相关关系,随机误差项的自相关性可以有多种形式,其中最常见的类型是随机误差项之间存在一阶自相关性或一阶自回归形式,即随机误差项只与它的前一期值相关。如果残差分布具有明显圆润的线性分布图像, 说明自相关性存在的可能性很高。
反之, 无规则波动大的分布图像显示出弱相关性。 -
异方差:
经典线性回归模型的一个重要假定:总体回归函数中的随机误差项满足同方差性,即它们都有相同的方差。如果这一假定不满足,即:随机误差项具有不同的方差,则称线性回归模型存在异方差性。
-
线性回归对异常值非常敏感。异常值会严重影响回归线和最终的预测值。
多重共线性会增加系数估计的方差,并且使得估计对模型中的微小变化非常敏感。结果是系数估计不稳定。
在多个自变量的情况下,我们可以采用正向选择、向后消除和逐步选择的方法来选择最重要的自变量。
- L1回归和L2回归
- 除非不假定正态性,二者回归与最小二乘回归的所有假设是一样的。
- L1回归起到特征选择,如果一组自变量高度相关,那么L1回归只会选择其中一个,而将其余的缩小为零。
-
弹性回归
弹性回归是岭回归和套索回归的混合技术,它同时使用 L2 和 L1 正则化。当有多个相关的特征时,弹性网络是有用的。套索回归很可能随机选择其中一个,而弹性回归很可能都会选择。
○ 在高度相关变量的情况下,它支持群体效应。
○ 它对所选变量的数目没有限制
○ 它具有两个收缩因子 λ1 和 λ2
总结:线性回归中的几个重要假设
○ 随机误差项是一个期望值或平均值为0的随机变量;
○ 对于解释变量的所有观测值,随机误差项有相同的方差;
○ 随机误差项彼此不相关;
○ 解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立;
○ 解释变量之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵是满秩矩阵;
○ 随机误差项服从正态分布
-
当违背上述假设时:
违背基本假设的计量经济学模型还是可以估计的,只是不能使用普通最小二乘法进行估计。
当存在异方差时,普通最小二乘法估计存在以下问题: 参数估计值虽然是无偏的,但不是最小方差线性无偏估计。