2.1 什么是统计学习

2020-07-29  本文已影响0人  深海里的柠檬树

首先明确基本术语 :

输入变量X (input variable) : 又名预测变量,自变量,属性变量,有时就称为变量。

输出变量Y (output variable) : 又名响应变量,因变量。

假设观察到一个定量的响应变量Yp个不同的预测变量,记为X=(X_1,X_2,...,X_p),可以表达成一个比较一般的形式Y=f(x)+\epsilon。其中fX_1,X_2,...,X_p的函数,是固定的但是是未知的,\epsilon是随机误差项,与X独立,且均值为0。

2.1.1 什么情况下需要估计f

  1. 可约误差 (reducible error)

    当所选的\hat{f}不是f的一个最佳估计时,对模型估计的不准确可能会引起一些误差,但是是可约的,因为我们可以选择更加合适的统计学习方法来提高\hat{f}的精度。

  2. 不可约误差 (irreducible error)

    即使我们得到的是关于f的精准估计,预测仍然会存在误差,是因为Y还是一个关于\epsilon的函数。按照定义,\epsilon是不能用X去预测的,这部分便是不可约误差。

    事实上,\epsilon可能包含了对预测Y有用但却不可直接观测的变量信息,如某个病人不良反应的风险与病人当天服药的情绪状态有关。
    E(Y-\hat{Y})=E[f(x)+\epsilon-\hat{f}(X)]^2=[f(X)-\hat{f}(X)]^2(可约)+Var(\epsilon)(不可约)

    我们重点关注估计f的方法,使f有最小的可约误差,但事实上不可约误差提供了Y预测精度的一个上界,在实践中实际上是未知的。

  1. 哪些预测变量与响应变量相关?

    通常情况下需要预测的变量中只有一小部分与Y充分相关,从一大组可能的变量中根据应用的需要识别一些重要的预测因子是十分必要的。

  2. 响应变量与每个预测变量之间的关系是什么?

    可能成正/负相关,根据f的复杂性,响应变量与某个给定的预测变量之间的关系也可能依赖于其他的预测变量。

  3. Y与每个预测变量的关系是否能用一个线性方程概括,还是需要更加复杂的形式?

    大多数情况下估计f的方法采用线性形式,合理且理想。但当真正的关系更为复杂时,线性模型便远远不够。但选择复杂模型的代价时推断结果的解释性不够明晰,推断问题变得比较棘手。

2.1.2 如何估计f

假设我们观测到一组n个不同的点,这些观测点称做训练数据,我们利用这些观测点去训练或者引导,我们的方法怎样估计f

x_{ij}表示第i个观测点的响应变量值,训练数据记作{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)},其中x_i=(x_{i1},x_{i2},...,x_{ip})^T

  1. 建立模型假设

    一个常用的假设是f是线性的,具有如下形式 :
    f(X)=\beta_0+\beta_1X_1+\beta_2X_2+...+\beta_pX_p
    此时只需要估计p+1个系数\beta_0,\beta_1,...,\beta_p

  2. 用训练数据拟合/训练模型

    最常用的即最小二乘法。

    我们只需要估计参数,而不需要具体拟合函数。缺点是如果选择的模型与真实的f差距过大,拟合出来的f的效果也会很差。而拟合光滑度更强的模型需要更多的参数估计,会导致过拟合现象的出现 (表示这些模型拟合了错误或噪声)。

2.1.3 预测精度和模型解释性的权衡

一般来说,当一种方法的光滑性增强,其解释性减弱。

几种统计方法在光滑性和解释性之间的权衡

当数据分析的目标是推断时,运用简单又相对欠光滑的统计学习方法具有明显的优势。然而在另外一些情况下,如果仅仅是对预测感兴趣,至于预测模型是否易于解释并不关心,也许我们会想当然地认为选择光滑度更高的方法才是更优的选择,但往往事实并非如此。欠光滑度模型乍一看违反直觉,但这正是其抗高光滑模型过拟合缺陷的能力所在。

2.1.4 监督学习和无监督学习

2.1.5 回归与分类问题

根据响应变量是定性的还是定量的来选择所需的统计学习方法是数据分析的常规思维。

定量时,通常选用线性回归模型;定性时,通常选用逻辑回归。

上一篇 下一篇

猜你喜欢

热点阅读