大数据 爬虫Python AI Sql想法@IT·互联网

线性回归-置信区间为何在中部收窄?

2024-12-04  本文已影响0人  古代怪兽哥莫拉超进化

前言

不知道你是否见过这样的图:

企鹅分组.png
这是对三组数据的线性回归,来自经典数据集“帕尔默群岛的企鹅”

线性模型

假设响应变量Y和自变量X_1, X_2, X_3...X_k存在简单线性关系(两者可以用最简单的线性模型描述):
Y = \beta_0 + \beta_1X + \varepsilon
其中\beta_0 , \beta_1回归参数(回归系数)\varepsilon误差项
根据这个式子我们可以得到预测值与自变量之间的关系:
\hat{y}_i = \hat{\beta_1}x_i +\hat{\beta_0}

最小二乘估参数

如果我们找到一条直线,使得每个预测值和实际值之间的差的平方和(或者绝对值、正负项和)最小,也就是残差平方和最小, 此时的直线最接近实际的数据,由此而来只需要计算残差平方和(residual sum of squares ,RSS),并求其取最小值时的\beta_0 , \beta_1, 即可找到拟合直线,前人已经计算过了,使RSS最小的参数估计值是:
\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \overline{x})(y_i - \overline{y})}{\sum_{i=1}^{n} (x_i - \overline{x})^2}
\hat{\beta}_0 = \overline{y} - \hat{\beta}_1 \overline{x}

置信区间

某一个预测值\hat{y}的置信区间CI_\hat{y}(confidence interval)可以用以下的式子表达:
CI_{\hat{y}} = \hat{y} \pm t_{\alpha/2, n-2} \cdot SE_{\hat{y}}
其中某一个预测值\hat{y}的标准误差SE_\hat{y}(standard error)可以用以下的式子表达:
SE_{\hat{y}} = S \sqrt{1 + \frac{1}{n} + \frac{(x - \overline{x})^2}{\sum (x_i - \overline{x})^2}}
其中:

合在一起就得到了预测值置信区间的表达式:
CI_{\hat{y}} = (\beta_0 + \beta_1x) \pm t_{\alpha/2, n-2} \cdot S \sqrt{1 + \frac{1}{n} + \frac{(x - \overline{x})^2}{\sum (x_i - \overline{x})^2}}

结论

由上式可知当x取到\overline{x}附近时,(x - \overline{x})^2逐渐变小,使得偏差部分整体变小,那么此时的置信区间就会变小,反映在图上就是中间窄、两边宽了;

还有一种直观的理解是:左侧点对右侧预测值的影响没有那么大,右侧点对左侧预测值的影响也没有那么大,但是两边的点都会为预测中间的值作出贡献,因此中间的预测值实际上是在获得了更多信息(两侧的点)后预测得到的,加上回归直线一定会过(\overline{x}, \overline{y})点,所以预测中间值的信心就很足,置信区间就窄一点。

上一篇 下一篇

猜你喜欢

热点阅读