Lesson 12 - 回归

2018-09-12 本文已影响2人 IntoTheVoid

1 回归到底是什么?

回归这个术语本身并没有很贴切的反映它所处理的事, 在最初的时候, 回归是指父代如果是一个很高的人,那么他的子代的身高往往会regress回归到总体中的平均值, 所以他其实是指回归到平均值的意思. 但是到目前它的定义已经发生了变化.

所以将其称为数值模型可能更好的理解, 也即使用数据创建一个模型,以根据一组数值输入预测数值输出, 换句话说, 从一堆数据中找到最适合的一个f(x)这个过程也成为拟合(fit), 然后再给这个函数一个输入, 以期望获得一个输出.

image.png

如果从逻辑学的角度来讲
拟合过程也即induction(归纳)
拟合的函数即归纳出来的rule
给定输入预测输出也即deduction(演绎)

2

我们正式开始之前 , 首先回顾一下 , 机器学习的概念和回归如何拟合到机器学习中 , 由于机器学习现在是很热门的话题所以你可能听说过 , 实际上这并不是新话题 , 它只是对存在已久的事物进行打包的新方式 , 机器学习的两个基本分支 , 分别是监督学习和非监督学习 , 监督学习表示我们使用输入数据预测数据的标记 , 这种机器学习类型的例子 , 包括使用信用卡交易数据预测欺诈交易 , 或使用消费者金融数据预测到期不还贷的可能性 , 或使用街区特征预测房价

image.png

机器学习的另一个主要分支是非监督学习 , 在这种机器学习类型中 , 根据常见特点你对给定数据创建聚类 , 这些数据并不像监督机器学习技巧中存在标记 , 常见非监督问题包括对相似消费者细分进行分组 , 或者对覆盖类似话题的文档进行分组 , 机器学习还包含其他方法但这是两种主要方法 , 事实证明 , 线性回归和逻辑回归都属于监督式机器学习分支

3

简单线性回归

在这些例子中 , 我们只会对比两个定量变量 , 最简单形式的回归 , 我们只对两个变量的关系感兴趣 , 例如价格和销售量 , 温度和湿度身高和体重 , 学习时长和考试分数

image.png

散点图是视觉化这些关系的常见方法 , 这个轴上的变量称为反应变量(Response variable)或因变量(dependent) , 而这个轴上的变量称为解释变量(Explanatory variable)或自变量(independent), 这个反应变量是我们想要预测的 , 而解释变量用于预测反应变量

image.png

在价格和销售量的例子中 , 我们更容易控制价格 , 而销售量我们想通过价格来预测 , 因此我们认为价格是解释变量 而销售量是反应变量 , 在线性回归中我们通过将数据拟合到一条直线中做到这点 , 在我们深入探究回归前 , 首先仔细观察一下 , 散点图和所谓的相关系数

4 散点图

如果你要对比两个定量变量 , 例如价格与销售量 , 或身高与体重 , 这种分析最常见的绘图是散点图

image.png

这些图可以用于对两个变量关系的强度和方向进行视觉化

image.png

这是极强正相关的例子 , 即随着一个变量增加另一个变量也增加

image.png

这个是极强负相关的例子 , 即随着一个变量增加另一个变量减少

image.png

由于这些点彼此更加分散 , 这会弱化关系

所以为了识别关系的强弱 , 我们不能过于关注与关系相关的斜率 , 一般来说我们认为

强度是弱 , 中度或强
方向是正或负

用于获取这两方面的值 , 称为相关系数 , 或者用小写字母 r 来表示相关系数 , 用于说明线性关系的强度和方向 , 相关系数通常在-1 到 1之间

image.png

如果非常接近 1 或 -1 , 则关系较强 , 负数表示负相关 , 整数表示正相关

虽然有几种不同的方法可以测量两个变量之间的相关性，但最常见的方法是Pearson的相关系数。

5 相关系数

观察相关系数时存在一些经验规则 , 然而这是高度场依存的衡量方法 , 在社会科学领域 , 由于人类是复杂的很难找到极强的关系 , 所以某个领域的相关系数界限 , 可能与我们发现的 , 环境关联性非常不同 , 所以这只是一种经验规则

image.png

如果相关系数位于 1 到 0.7 之间 , 或者位于 -1 到 -0.7 之间 , 可以认为是强关联
如果是在 0.7 到 0.3 之间 , 或者位于 -0.7 到 -0.3 之间 , 可以认为是中度关联
如果绝对值低于 0.3 , 可以认为是弱关联

记住相关系数为负并不代表弱关联

image.png

另外绘图可以帮助 , 我们更好地了解两个变量的关系 , 如果我们根据安斯库姆四重奏得到两个图 , 会发现这两个数据集的相关系数相同 , 但是看起来却相差甚远

Correlation Coefficients

Correlation coefficients provide a measure of the strength and direction of a linear relationship.

We can tell the direction based on whether the correlation is positive or negative.

A rule of thumb for judging the strength:

image.png

Calculation of the Correlation Coefficient

image.png

It can also be calculated in Excel and other spreadsheet applications using CORREL(col1, col2), where col1 and col2 are the two columns you are looking to compare to one another.

6

我们拟合直线和一些点时 , 通常使用两个值进行定义 , 即截距和斜率

截距告诉我们解释变量为 0 时 , 反应变量的预测值 , 我们通常使用这种符号表示法表示总量和样本截距的值 , β0 表示参数 b0 表示统计量

image.png

斜率表明每增加一个单位反应变量的预计变化 , 引起解释变量的增加 , 同样以符号表示总量 , 和样本斜率值是这样的 , β1 表示参数 , b1 表示统计量

image.png

我们一旦拟合了直线和这些点 , 就利用这个方程进行定义 , 直线起始的这个点是截距值 , 即x 等于 0 时的值 , 如果我们像这样沿着 x 轴增加 1 , 那么这条直线沿着 y 轴的变化是斜率值

image.png

符号表示法的最后一个重要注释, 通常你在回归中会看到 , 这样的 y 和 Y-hat 值 , 实际上这表示两个不同的内容 , Y-hat 值表示我们从拟合直线中得到的数字 , 而 y 表示实际数据点

7

在双变量案例中 , 我们想要找到一条直线能够 , 让我们很好地利用解释变量预测反应变量

用于发现最佳直线的主要算法是最小二乘回归算法 ,
选择直线的方法是 , 对拟合直线和每个点之间的垂直距离平方的总和进行最小化

让我们来看一下原理 , 设想这是相同的点集 , 我们想要拟合这两条直线 , 我们通过观察这些距离 , 决定应该选择两条直线中的哪一条

image.png

但是如果我们只用这些值的总和 , 正负数可以会最后抵消掉每条直线 , 所以我们不是简单求和而是对这些距离的平方求和 , 然后找到最小化的一条直线

image.png

我们可以这样以符号表示差异 , 然后目标是最小化这个函数 ,

image.png

也就是说对于数据集中的每个点 , 观察预计值和实际值的距离 , 进行平方然后求和

image.png

如果有条直线得到的值比其他值更小 , 那么这就是我们想要使用的直线

你可能会想我们为什么选择这个函数呢？ , 为什么不使用绝对值而是使用平方呢？ , 为什么不使用指数将所有值变成整数呢？ , 实际上许多函数可供选择进行优化 , 但是它的数学特性让这个特殊的函数很不错 , 一些函数基于微积分理论一些只是基于传统理论 , 大多数情况下你实际上自己无法 , 计算这些值但是软件可以做到 , 例如你在 Python 中默认完成的事情 , 这样可能很好地适用于大部分数据集 , 如果你决定想以不同方式将这个问题最优化 , 你可以自己编写一个程序