统计

什么是回归?

2018-05-27  本文已影响79人  董八七

(Wang, 2011)

回归分析建立了检验因变量与一个或多个自变量之间关系的数学模型。 这些模型可用于预测自变量的未观测值和/或未来值的响应。 在简单情况下,当因变量y和自变量x都是标量变量时,对于i = 1, . . . , n,给定观察值(xi, yi),一个回归模型将依赖和自变量如下关联起来:
$$
y _ { i } = f ( x _ { i } ) + \epsilon _ { i }
$$

其中f是回归函数,$\epsilon _ { i }$是具有共同方差$\sigma ^ { 2 }$的零均值独立随机误差。回归分析的目标是为f构建一个模型并基于噪音数据对其进行估计。
例如,对于黄石国家公园中的 Old Faithful喷泉,考虑使用前一次喷发的长度来预测下一次喷发的等待时间的问题。 图1.1(a)显示了来自 Old Faithful喷泉的272次观测的等待时间与下一次喷发的等时间(y = waiting)与先前喷发的持续时间(x = duration)的散点图。 目标是建立一个数学模型,将等待时间与前一次爆发的持续时间联系起来。第一次尝试可能是用直线逼近回归函数f
$$
f_(x) = \beta_0 + \beta_1x
$$

图1.1(a)显示了最小二乘直线拟合。 没有明显的缺乏适合的迹象。 此外,图1.1(b)中的残差图没有明显的趋势。
通常fx中是非线性的。处理非线性关系的常用方法是用阶m的多项式逼近f
$$
f_(x) = \beta_0 + \beta_1x + \dots + \beta_{m−1}x^{m−1}
$$

图1.2显示了模拟摩托车碰撞实验对碰撞头盔效能的影响(x = time)后加速度(y = acceleration)随时间的散点图。 很显然,一条直线不能解释加速度和时间之间的关系。 m = 1, . . . , 20,数据拟合了20个,图1.2显示了Akaike的信息标准(AIC)选择的最佳拟合。 范围两端的拟合曲线中有波浪。 即使考虑多达20阶的多项式,拟合效果仍不尽人意。 与线性回归模型(1.2)不同,除小m外,模型(1.3)中的系数不再有很好的解释。

通常,参数回归模型假定f的形式是已知的,除了有限的许多未知参数。在某些简化假设下,f的具体形式可能来自科学理论和/或力学近似。这些假设可能过于严格,对于某些应用来说近似值可能过于粗糙。不恰当的模式会导致系统性偏见和误导性结论。在实践中,应该总是检查函数f的假定形式。
通常很难(如果不是不可能的话)获得f的特定功能形式。非参数回归模型不会采用预定的形式。相反,它对$f$的定性属性进行了假设。例如,人们可能愿意假设f是“光滑的”,它不会减少到具有有限数量参数的特定形式。相反,它通常会导致一些无限维度的函数集合。非参数回归的基本思想是让数据为自己说话。那就是让数据决定哪个函数适合最好,而不要在f上强加任何特定的形式。因此,非参数方法通常更加灵活。他们可以发现数据中可能会漏掉的结构。


(Fox, Negrete-Yankelevich, Sosa, 2015)

我们先分解一个简单的线性回归模型。 这将提供有关多物种数据集如何挑战该模型推论的见解。 回归的目标是估计因变量(y)和独立(解释或预测变量)变量(x)之间的线性关系。 例如,体重(x)可以预测有氧运动能力(y),或者身体大小可以预测健身吗? 也许问这个问题最简单的方法是在x-y坐标中建立一条直线。 这条线可以用等式形式描述为:
$$y_i = a + bx_i + \varepsilon _ { i }$$
这里下标i索引(指代)这些变量的单个数据点(或样本),它可以取值为i = 1, 2, . . . , N其中N是观测的总数。 方程包含线的y轴截距(a)和斜率(b)。 这些都是未知的,我们希望通过回归进行估计。 【残差的解释】建模y和x之间关系的一个重要方面是随机误差(或残差)变量。 这个词是这种关系中的随机噪音。 它通常被解释为y中没有被x解释的所有变化。 在最简单的线性模型下,假定所有观测值都是独立的; 进一步的假设是这些观察结果将平均为零且具有共同(或同质)方差($\sigma ^ { 2 }$)的正态分布(N)。 这些关于分配的假设可以总结为:
$$\varepsilon _ { i } \sim N(0,\sigma ^ { 2 })$$


(Mirman, 2014)

在最普遍的层面上,回归分析的目标是找到最能描述数据的参数。要做到这一点,我们必须定义“最好”的含义。一个非常强大和灵活的定义是说我们需要最大化观察实际数据的可能性的参数,这被称为最大似然估计或MLE。对于标准(而不是多级)线性回归,假设误差是正态分布的,传统的普通最小二乘(OLS)回归算法可以求解一个方程并找到MLE参数估计。对于多级模型,这种直接方法是不可能的(没有封闭形式的解决方案),所以使用迭代算法,其试图逐渐收敛到MLE参数估计。然而,不能保证收敛,并且随着模型的复杂性,尤其是随机效应结构的复杂性,收敛失败的可能性趋于增加。
由于MLE的目标是最大化观察实际数据的可能性,因此使用给定估计参数的数据的对数似然(LL)评估拟合优度。其他模型拟合度量,如R2,具有固有的有意义的解释(方差比例占),但LL只在(有意义的)比较中有意义。也就是说,我们可以问是否向该模型添加关键参数是否大大提高了模型拟合(LL)。这种比较被称为似然比检验(有时缩写为LRT),因为两个对数值的差值等于这些值的比值的对数。关键统计量是对数似然度变化(-2$\cdot \Delta$LL)的-2倍,其分布为$\chi^2$,其自由度等于添加到模型中的参数数量。请注意,LRT用于评估添加或删除一个或多个参数的效果;也就是说,当一个模型包含另一个模型的参数子集时,称为嵌套模型。
还存在其他的模型拟合度量,例如Akaike信息准则(AIC)和贝叶斯信息准则(BIC),它们都是根据对数似然性和对自由参数数量的调整来计算的原则上,可以使用这些度量来比较非嵌套模型,但困难在于多级模型中没有明确定义自由参数的数量。具体而言,不清楚每个随机效应估计值(即i的每个值)应该被视为一个自由参数还是因为随机效应被约束为来自平均值为0的正态分布,该分配确实是一个自由参数。出于这些原因,我们将仅使用LRT进行模型比较。


上一篇下一篇

猜你喜欢

热点阅读