统计学（49）-广义可加模型

2020-02-11 本文已影响0人 Zhigang_Han

1、基本概念

（1）广义线性模型这一概念基本上把常规的统计方法都统一起来了，但它仍是一个“线性“模型，不管分布或连接函数是何种形式，都必须满足“线性”这一条件。
（2）"非线性"是一个很广泛的概念，它有两种情况。一种是固定的、一定表达形式的非线性，如二次项、对数关系、指数关系等。它们虽然不是线性的，但通过一定的变换后仍可以满足线性关系。这也就是我们通常所说的非线性回归，只要能找到恰当的变换方式，就可以很容易拟合因变量和自变量的关系。
如下图所示，，分别对自变量进行了对数转换和二次项转换，这两种转换最终都可以用方程式表达出来（二
次项是自变量中心化后的方程），分别为：

image.png

（3）还有一种情况是，没有现成的恰当变换形式，或者说，没有一个现成的表达式能够描述因变量与自变量的关系，因为它可能跟对数、二次项等看起来都不是特别吻合，没有一个函数能够把这条线表达出来，但是从另一方面来说，下图的拟合效果可能要好于上图。

image.png

2、为什么会出现这种情况呢？

（1）因为凡是能用表达式描述的，必定会有一定限制，如二次项，一定是先高后低（或先低后高）的形式，只是幅度不同而已。
（2）上图中不局限于某种表达方式，只是在寻找更贴近点的曲线，其拟合效果更好。
（3）对于这种拟合方式，一般统称为非参数回归，也就是说不用估计参数。前面所说的非线性回归仍属于参数回归的范畴，因为最终仍能估计出回归系数（参数估计值）。而非参数回归则没有回归系数可估计，只是在寻找一条拟合效果相对较好的曲线。

3、广义可加模型的提出

（1）非参数回归一般只能拟合1个自变量，所以后来统计学家提出了可加模型(Additive Model), 可以同时拟合多个自变量；再后来又提出了广义可加模型(Generalized Additive Model), 将因变量扩展到分类资料、计数资料等更广泛的范围（就像广义线性模型一样）。
（2）与参数回归相比，非参数回归与其最大的差异就是拟合变量的数量变多了。因此，广义可加模型可以执行因变量与多个自变量的各种非参数拟合，而且因变量可以是服从二项分布、Poisson分布、Gamma分布等更加广义的范畴。

4、广义可加模型的公式

（1）广义可加模型将线性模型中的队βx换成了fx（可以是线性也可以是非线性的函数关系），因此广义可加模型的形式就变成了:

image.png

5、广义可加模型与广义线性模型的差异

（1）广义可加模型和广义线性模型的样子差不多，但不同的是，在广义线性模型中要求每个自变量与因变量（连接函数）必须为线性关系；而在广义可加模型中则放宽了这一条件，允许二者之间为非线性关系。
（2）与广义线性模型相比，广义可加模型允许自变量与因变昼采用任意形式，目的在于寻找二者的最佳拟合，或者说，寻找一条最贴合数据的曲线。

5、是否会过度拟合？

如果一条曲线能够经过所有的点，这不就是最贴合了吗？如下图：

image.png
图中的曲线，对这12 个点来说是最佳拟合，因为它完美地经过了所有的点。
但这种曲线并没有太大价值，因为它只是对这份样本数据拟合得最好，推广到其它数据就未必了，也就是说不具备“普遍规律”得特性。
这种即使最贴合但是毫无价值的拟合，叫做过度拟合（Overfitting）

6、什么样的模型比较好？

（1）统计建模的目的是推而广之，仅对一份数据拟合效果好并不是真的好，要对所有数据都有一个好的拟合效果，这才是我们要找的模型。

image.png

上图中的二次项曲线，虽然该曲线可能连一个点都没有完全穿过，但它给出了大致的数据形式。该曲线可能对这份数据的拟合效果不算太好，但对于其他年份或其他地区却同样适用，它们都大致符合这一规律（先升高后降低）。
（2）广义可加模型其实并不是一味地追求拟合效果好，还要考虑曲线光滑度的问题。光滑度好，意思就是曲线的弯曲尽可能少，如直线的光滑度最好，因为它没有弯曲；二次项只有一个弯曲，光滑度也可以；弯曲越多，越难以将其用方程表达出来。
（3）广义可加模型就是力求找到一条既能很好地拟合数据，同时又保证较为光滑的曲线，用专业术语来说就是偏差－方差权衡(Bias-Variance Trade-off) 。

7、偏差和方差怎样平衡呢？

（1）所谓偏差小，也就是拟合效果好，即尽可能地切合所有点；方差小则反映了对于同一总体数据，每次抽样样本拟合的模型应该是差不多的（如所有样本拟合的都是直线回归，而不是在这个样本数据中是直线关系，而到了另一个样本数据中又是二次项关系），这时曲线的光滑度一般较好。
（2）重点理解偏差-方差平衡
所谓的偏差－方差权衡，意思就是尽量找到一个偏差和方差都较小的模型，因为如果一味地追求偏差小，那么尽管对当前样本数据的拟合效果非常好，但模型过于复杂，难以推广；如果一味地追求方差小，则模型过于简单，不能最佳拟合数据。

8、光滑参数

（1）拟合优度和光滑度之间的结合点通常用光滑参数(Smoothing Parameter)来表示，通过设定光滑参数的大小可以调整曲线的光滑度。光滑参数越小，数据拟合效果越好，但线条波动非常大，光滑度不好；光滑参数越大，线条越光滑，但拟合效果欠佳，最光滑的曲线就是直线。
（2）如何找到一个光滑参数以保证同时满足拟合效果和光滑度都较好呢？
实际中常采用留一交叉验证(Leave-one-out Cross Validation) 法。其基本思想是：
对于n个数据，每次拟合光滑函数时留出一个数据点，然后用其余的n-1个数据估计出这一点的拟合值，并与实际值（留出的一个点）比较求出光滑参数的残差平方。当每个数据都被留出一次时，便可求出n个残差的平方和。交叉验证法就是要取一个光滑参数，使得残差平方和最小。（只有一个点的，是否太小，还是我的理解有误）

9、广义可加模型的用处

广义可加模型以探索和预测为主，因为它不像广义线性模型一样可以给出参数估计值，只能给出一条拟合效果最好的曲线，但这条曲线往往无法用一个函数表示出来，因此它无法给出一个像广义线性模型那样的表达式。（太复杂，并没有明确规律）
但这并不是说广义可加模型就没有用处，事实上，它至少在以下两个方面还是非常有效的。
（1）初步探索自变量与因变量的恰当关系。如下图，就可以粗看出3次项。

image.png
通过广义可加模型的探索，发现二者大致为三次项关系，将自变量进行三次项转换，然后执行线性回归，便可得到因变量与自变量三次项的关系如下：

image.png
可以看出，因变量对自变量的三次多项式在0.1的水平上一次、二次和三次都是有统计学意义的。
因此，如果你想深入地探索数据，那么广义可加模型可以帮助你找到一个较好的关系，然后看这个关系大致符合哪个函数（是二次项还是对数形式），将其进行变量变换，再执行参数模型，便可得到自变量对因变量影响的参数估计值。
（2）只是预测，无须给出参数模型的具体形式。
广义可加模型尽管无法给出参数估计值，但它给出了一条既贴合数据又不是特别复杂的拟合曲线，可以利用该曲线对因变量进行预测。一般情况下，这种预测效果比参数模型要好。（参数模型全局性强，往往忽略局部）

统计学（49）-广义可加模型

1、基本概念

2、为什么会出现这种情况呢？

3、广义可加模型的提出

4、广义可加模型的公式

5、广义可加模型与广义线性模型的差异

5、是否会过度拟合？

6、什么样的模型比较好？

7、偏差和方差怎样平衡呢？

8、光滑参数

9、广义可加模型的用处

猜你喜欢

热点阅读