线性回归

2019-03-19  本文已影响0人  抠脚_b41d

[Chapter 3 - 线性回归]

简单线性回归

形如\normalsize Y \approx \beta_{0} + \beta_{1}X,其中\beta_{0} 截距为\beta_{1} 为斜率,\beta_{0}\beta_{1} 被称为系数或者参数

计算模型系数

计算\beta_{0}\beta_{1} 使得直线和点之间的距离之和最小
i \text{个}回归值的残差为

\normalsize e_{i} = y_{i} - \hat{y_{i}} = y_{i} - \hat{\beta_{0}} - \hat{\beta_{1}}x_{i} .
则残差平方和RSS为:
\normalsize RSS = e_{1}^2 + e_{2}^2 + \ldots + e_{n}^2
\normalsize RSS = (y_{1} - \hat{\beta_{0}} - \hat{\beta_{1}}x_{1})^2 + (y_{2}- \hat{\beta_{0}} - \hat{\beta_{1}}x_{2})^2 + \ldots + (y_{n} - \hat{\beta_{0}}- \hat{\beta_{1}}x_{n})^2 .

假设样本均值为
\normalsize \bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_{i}
\normalsize \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_{i} ,
最小二乘法的的回归结果为:
\normalsize \beta_{1} = \frac{\sum_{i=1}^{n}(x_{i} - \bar{x})(y_{i} - \bar{y})}{\sum_{i=1}^{n}(x_{i} - \bar{x})^2}

\normalsize \beta_{0} = \bar{y} - \hat{\beta_{1}}\bar{x}

评估系数准确性

对于模型\normalsize Y = \beta_{0} + \beta_{1}X + \epsilon和回归线\normalsize \hat{y_{i}} = \hat{\beta_{0}} + \hat{\beta_{1}}x_{i} .
标准差SE

\normalsize \mathrm{SE}(\beta_{0})^{2} = \sigma^{2}\bigg[\frac{1}{n} + \frac{\bar{x}^{2}}{\sum_{i=1}^{n}(x_{i} - \bar{x})^2}\bigg]

\normalsize \mathrm{SE}(\beta_{1})^{2} = \frac{\sigma^{2}}{\sum_{i=1}^{n}(x_{i} - \bar{x})^2}

其中 \sigma^{2} = \mathrm{Var}(\epsilon) 并且\epsilon_{i}\sigma^{2}没有协相关关系.

残差标准差为:

\normalsize \mathrm{RSE} = \sqrt{\frac{\mathrm{RSS}}{(n - 2)}}

其中\mathrm{RSS} 为残差方差之和.

标准差可以用来计算置信区间(在一定可信度下能够包含未知参数真实数值的区间)

简单的线性回归下 \beta_{1}的95% 置信区间可以估计为
\normalsize \hat{\beta_{1}} \pm 2 \times \mathrm{SE}(\hat{\beta_{1}}) .
相似的\beta_{0}可以估计为
\normalsize \hat{\beta_{0}} \pm 2 \times \mathrm{SE}(\hat{\beta_{0}}) .

当我们想计算单个响应值y = f(x) + \epsilon, 我们使用 预测区间;当我们想计算平均响应值f(x),我们使用置信区间

假设检验:

对于以下两种假设:
H_{0}: XY不相关
H_{1}: XY相关
我们可以采用T-检验进行估计
T-statistic 计算为:
\normalsize t = \frac{\hat{\beta}_{1} - 0}{\mathrm{SE}(\hat{\beta_{1}})}
如果XY无关, n - 2 自由度的t-分布将会获得。
那么我们可以计算当前模型得到的t计算数据对应的概率p-value,如果p-value足够小,我们就可以拒绝假设H_{0}.

使用R^{2}评估模型准确度

\normalsize R^{2} = \frac{\mathrm{TSS}-\mathrm{RSS}}{\mathrm{TSS}} = 1 - \frac{\mathrm{RSS}}{\mathrm{TSS}}

其中:

\normalsize \mathrm{RSS} = \sum_{i=1}^{n}(y_{i} - \hat{y}_{i})^{2}

\normalsize \mathrm{TSS} = \sum_{i=1}^{n}(y_{i} - \bar{y}_{i})^{2} .
R^{2}可以计算模型拟合后减少的数据的自由度,R^{2}越接近1,那么模型拟合的就越好,具体需要的R^{2}的数据需要依据实际情况进行判定。

协相关系数

\normalsize \mathrm{Cor}(X,Y) = \frac{\sum_{i=1}^{n}(x_{i} - \bar{x})(y_{i} - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_{i} -\bar{x})^{2}}\sqrt{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}}

多变量回归

形如:\normalsize Y = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + \ldots +\beta_{p}X_{p} + \epsilon .

F检验

对多变量提出以下假设:
\normalsize H_{0}: \beta_{1} = \beta_{2} = \ldots = \beta_{p} = 0
H_{a}: at\ least\ one\ of B_{j} \ne 0 .
F-检验可以检测哪种假设为真

F-statistic计算为:

\normalsize \mathrm{F} = \frac{(\mathrm{TSS} -\mathrm{RSS})/p}{\mathrm{RSS}/(n - p - 1)} = \frac{\frac{\mathrm{TSS} -\mathrm{RSS}}{p}}{\frac{\mathrm{RSS}}{n - p- 1}}

如果为H_{a}成立,
\normalsize \mathrm{E}\{\frac{\mathrm{RSS}}{n - p - 1}\} = \sigma^{2}

相反如果H_{0}成立,

\normalsize \mathrm{E}\{\frac{\mathrm{TSS} - \mathrm{RSS}}{p}\} = \sigma^{2}即F检验的数据会接近1;相反, 如果H_{a}成立,F值会大于1 .

n 较大时, F-statistic稍大于1就很可能拒绝H_{0}. 如果n比较小, 则需要较大的F值才行。

定性预测

通过编码
\normalsize X_{i} = \left\{ \begin{array}{cc} 1&\mathrm{if\ p_{i}\ =\ class\ A}\\ 0 \ &\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.
获得模型
\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \epsilon_{i} = \left\{ \begin{array}{cc} \beta_{0} + \beta_{1} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.
或者编码
\normalsize X_{i} = \left\{ \begin{array}{cc} 1&\mathrm{if\ p_{i}\ =\ class\ A}\\ -1&\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.
获得模型
\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \epsilon_{i} = \left\{ \begin{array}{cc} \beta_{0} + \beta_{1} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} - \beta_{1}+ \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ B} \end{array} \right.

对于三变量的话:
\normalsize X_{i1} = \left\{ \begin{array}{cc} 1&\mathrm{if\ p_{i}\ =\ class\ B}\\ 0&\mathrm{if\ p_{i}\ \ne\ class\ B} \end{array} \right.

\normalsize X_{i2} = \left\{ \begin{array}{cc} 1&\mathrm{if\ p_{i}\ =\ class\ B}\\ 0 &\mathrm{if\ p_{i}\ \ne\ class\ B} \end{array} \right.

\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + \epsilon_{i} = \left\{ \begin{array}{cc} \beta_{0} + \beta_{1} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} + \beta_{2} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ B}\\ \beta_{0} + \epsilon_{i}&\mathrm{if\ p_{i}\ =\ class\ C} \end{array} \right. .

变量互作,非线性关系

形如
\normalsize \mathrm{Y} = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + \beta_{3}X_{1}X_{2} + \epsilon
变量没有互作时:
\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \left\{ \begin{array}{cc} \beta_{2}&\mathrm{if\ p_{i}\ =\ class\ A}\\ 0&\mathrm{if\ p_{i}\ \ne\ class\ A} \end{array} \right.
加上互作后变为:
\normalsize y_{i} = \beta_{0} + \beta_{1}X_{1} + \left\{ \begin{array}{cc} \beta_{2} + \beta_{3}X_{1}&\mathrm{if\ p_{i}\ =\ class\ A}\\ 0&\mathrm{if\ p_{i}\ \ne\ class\ A} \end{array} \right.
等价于:
\normalsize y_{i} = \left\{ \begin{array}{cc} (\beta_{0} + \beta_{2}) + (\beta_{1} + \beta_{3})X_{1}&\mathrm{if\ p_{i}\ =\ class\ A}\\ \beta_{0} + \beta_{1}X_{1}&\mathrm{if\ p_{i}\ \ne\ class\ A} \end{array} \right.

线性回归常见问题

  1. 非线性关系


    非线性关系

    左图为线性拟合的结果,右图加上了平方变量,显然右图更加符合标准

  2. 误差相关性(时间序列模型)


    误差相关性

    一图误差随机分布,二图则具有了一定的关联,在相近的地方,取值具有趋同性,这样误差皆为正或者负值,三图具有明显的时间序列模型的模式。

  3. 误差不为常量


    误差逐渐增大
  4. 离群值


    离群值
  1. 高杠杆率值


    高杠杆率值
  2. 共线性


    共线性

    共线性带来的数据预测区域过窄,如右图

上一篇下一篇

猜你喜欢

热点阅读