回归(二):再论线性回归

2017-04-23  本文已影响261人  哈劳斯军士

机器学习中的“假设”问题

机器学习的本质是一个建模过程,所有理论都有出发点,也就是“假设”,那么这些假设有哪些特点呢?

![][equtation3]
[equtation3]: http://latex.codecogs.com/svg.latex?\hat{x}=(A{T}A){-1}A^{T}\bm{b}
在实际工作中,若A^T*A不可逆或者防止过拟合,可以加入λ扰动。
![][equtation4]
[equtation4]: http://latex.codecogs.com/svg.latex?\hat{x}=(A{T}A+{\lambda}I){-1}A^{T}\bm{b}

残差分析

由上文可知,我们可知得到最小二乘解的矩阵形式是:
那么什么叫过拟合或者欠拟合呢?回到线性回归方程,我们最后得到的结果为:
![][equtation5]
[equtation5]: http://latex.codecogs.com/svg.latex?b=A{\hat{x}}+\epsilon
以为是拟合是尽量还原样本间的内在逻辑,曲线并不会过每一个样本,体现在这个等式中就是最后一项,我们将之称为残差,围绕这一项的工作,我们称之为残差分析

对于残差项的分析,是分析模型合理性的重要指标。根据中心极限定理,在线性回归模型中,残差应满足白噪声假设(White Noise Condition):

在统计学中,白噪声随机序列是指一组无自相关性,且有相同分布的随机序列。理论上,白噪声假设不要求随机变量服从正态分布,而可以是任意分布。但基于中心极限定理,假设残差服从正态分布是一个合理的近似。
基于以上白噪声假设的第3条,当残差方差为常数时,我们称残差具有同方差性(homoscedasticity);当残差方差不是常数时,称残差具有异方差性(heteroscedasticity)。

可视化在残差分析中的重要性

著名的安斯库姆四重奏(Anscombe's quartet)展示了在线性回归模型中具有相同的统计特征,但数据分布明显不同的四个例子,用于说明线性回归建模前进行数据可视化分析的重要性:



我们除了关注数据是否存在明显的线性相关特征外,还需要观察离群值的数量。离群值和残差异方差性是紧密相关的概念。通常,如果一个数据点为离群值,同时也意味着它对应的残差具有较大的方差,因此数据中的离群值数量较多的话,残差一般也会出现明显的异方差性。

关于线性回归的离群值的判断,有两个要点:

上一篇下一篇

猜你喜欢

热点阅读