机器学习—线性回归（Linear Regression）

2019-03-21 本文已影响0人 Bobby0322

什么是线性回归

我们首先用弄清楚什么是线性，什么是非线性。

线性：两个变量之间的关系是一次函数关系的——图象是直线，叫做线性。
注意：题目的线性是指广义的线性，也就是数据与数据之间的关系。
非线性：两个变量之间的关系不是一次函数关系的——图象不是直线，叫做非线性。

相信通过以上两个概念大家已经很清楚了，其次我们经常说的回归回归到底是什么意思呢。

回归：人们在测量事物的时候因为客观条件所限，求得的都是测量值，而不是事物真实的值，为了能够得到真实值，无限次的进行测量，最后通过这些测量数据计算回归到真实值，这就是回归的由来。
通俗的说就是用一个函数去逼近这个真实值，那又有人问了，线性回归不是用来做预测吗？是的，通过大量的数据我们是可以预测到真实值的。

线性回归可能是统计学和机器学习中最著名和最容易理解的算法之一。
预测建模主要关注的是最小化模型的误差，以牺牲可解释性为代价使最准确的预测成为可能。我们借鉴各种的领域的算法来处理统计数据以达到预测目的。
线性回归的表示是一个方程，它描述了一条线，通过寻找输入变量系数(B)的特定权重，拟合输入变量(x)和输出变量(y)之间的关系。

线性回归（Linear Regression）
例如：y=B0+B1∗x
我们将在给定输入x的情况下预测y，线性回归学习算法的目标是找到系数B0和B1的值。可以使用不同的技术从数据中学习线性回归模型，如普通最小二乘的线性代数解和梯度下降优化。

线性回归已经有200多年的历史了，并被广泛研究。在使用此技术时，一些很好的经验法则是删除非常相似(相关)的变量，并尽可能从数据中删除噪声。这是一种快速简单的技术，也是一种很好的算法。

线性回归要解决什么问题

对大量的观测数据进行处理，从而得到比较符合事物内部规律的数学表达式。也就是说寻找到数据与数据之间的规律所在，从而就可以模拟出结果，也就是对结果进行预测。解决的就是通过已知的数据得到未知的结果。例如：对房价的预测、判断信用评价、电影票房预估等。

线性回归的一般模型

大家看上面图片，图片上有很多个小点点，通过这些小点点我们很难预测当x值=某个值时，y的值是多少，我们无法得知，所以，数学家是很聪明的，是否能够找到一条直线来描述这些点的趋势或者分布呢？答案是肯定的。相信大家在学校的时候都学过这样的直线，只是当时不知道这个方程在现实中是可以用来预测很多事物的。

那么问题来了，什么是模型呢？先来看看下面这幅图。

假设数据就是x，结果是y，那中间的模型其实就是一个方程，这是一种片面的解释，但有助于我们去理解模型到底是个什么东西。以前在学校的时候总是不理解数学建模比赛到底在做些什么，现在理解了，是从题目给的数据中找到数据与数据之间的关系，建立数学方程模型，得到结果解决现实问题。其实是和机器学习中的模型是一样的意思。那么线性回归的一般模型是什么呢？