机器学习笔记——入门总结

2018-12-27 本文已影响20人电脑配件

看了这么多天基础知识，是时候写一篇总结了，加深一下印象，顺便让没有接触过的朋友们了解一下。

在开始之前，我们需要明确一个问题，就是什么是机器学习？机器学习的算法与普通程序的算法有什么区别呢？

在《DEEP LEARNING》一书提到，Mitchell（1997）给机器学习提供了一个简洁的定义：对于某类任务T 和性能度量P，一个计算机程序被认为可以从经验E 中学习是指，通过经验E 改进后，它在任务T 上由性能度量P 衡量的性能有所提升。

也就是说，机器学习算法随着不断地训练或应用，能够对于一个任务能完成地更好，而一般意义上的程序只是严格按照人们预先设立的指令进行执行，没有反馈的过程，不能自动地优化。

根据以上的定义，机器学习并不一定是很复杂的，相反我们可以考虑很简单的模型，只要它能在训练中可以不断优化问题处理的效果，这个模型就可以称为机器学习模型

抽象地讲，就是建立一个模型：

$y=f(x;\theta)$

$\theta$ 可以通过输入值优化

输入、输出、参数都可以是任意张量

比如，我们可以考虑最简单的情况：加入我们的输入 $x$ 和输出 $y$ 都是标量，且假设 $y$ 与 $x$ 满足线性关系：

$y=kx+b$

我们现在有一些样本值 $x_i$ 和对应的输出值 $y_i$ ,我们就可以通过这些值训练出合适的参数 $k$ 和 $b$ ，这就可以称为机器学习。

我们应该训练什么？

在训练之前，我们需要定义一个描述当前的参数工作好或坏的量，这样我们训练才能有目标。我们一般采用的是使用我们当前的参数得出的预测值与实际值的偏差，称为损失值（loss），是预测值 $\hat{y}$ 和实际值 $y$ 的函数，即 $L(\hat y, y)$ 称为损失函数（loss function）或代价函数（cost function）。现在我们就有了训练的目标：尽可能地减小损失值，这样在我们定义的损失函数意义下，我们的模型和真实情况是尽可能一致的。

损失函数的形式根据问题的不同而不同。对于上述的线性模型的问题，我们可以采用均方误差：

$L(\hat y_i,y_i)=MSE_{test}=\frac{1}{n}\sum_{i=1}^n (\hat y_i-y_i)^2$

其中 $y_i$ ， $\hat y_i$ 分别表示第 $i$ 个输入 $x_i$ 对应的输出的真实值与使用当前的参数得到的预测值

如何开始训练呢？

在这个模型中我们有两个参数需要进行训练：k和b。

由于我们已经有了训练的明确目标，就是尽可能的最小化一个函数（损失函数）的值，相信在高中的时候经常遇到这样的问题，一个解决办法就是损失函数对我们的参数求导数，令它的导数等于零，得到的就是损失函数取极值的时候参数的值，而这种模型特别简单，以至于我们并不需要一步一步地更新参数k与b的值，我们只需要带入求解导数等于零的方程，就可以将参数解出来。实际上，这是就是著名的线性回归模型。

这里我偷个懒直接搬运网上的答案：这里的b是斜率（也就是上面的k），a是截距（上面的b）

线性回归的解

以上模型中我们看出，如果我们的训练集增大，获得更多样本，其中的求和能得到更多的数据，当有新的数据加入时，我们的参数就会随之改变，对于新的输入我们的预测输出就有可能做地更好。这就符合了上面我们对机器学习的定义。线性回归也是一种机器学习算法。在接下来的讨论中我们将看到，实际上所谓的神经网络的基本原理和线性回归也差不多，都是通过某一种方法更新参数以降低损失值，只不过神经网络的参数更多，且加入了非线性因素，不可能用直接求导数的方法求解，需要另想其他办法。

上面的模型可以推广到多维的情况，即不局限于标量，输入和输出都可以是向量。这样，我们的参数和偏置量会变成向量和矩阵：

$y=Wx+b$

以后的讨论中我们默认小写字母是向量，带下标的是向量对应的标量，而大写字母则为矩阵

在上面的问题中，我们有一条假设，就是我们的输入和输出是满足线性关系的，但是现实中的大多数关系并不是这样的。根据线性代数的知识，多个线性关系的组合仍然是线性关系。要想描述非线性关系，类似于

$y=W_2(W_1x+b_1)+b_2$

这样的模型是行不通的，我们必须加入一个非线性函数才能描述这些关系。实际上，如果我们把非线性的函数关系加到里面的那一层中：

$y=W_2(f(W_1x+b_1))+b_2$

这个非线性的变换又经过了一次线性变换才得到了输出，这样，这个非线性变换即使非常简单（比如之后讲到的ReLU），但是通过线性变换，这个模型就能够表示非常复杂的关系了。这个层间的非线性函数被称为激活函数（Activation Function），事实上，只要有任意的非线性激活函数和足够长的内层（一般称作隐藏层，即上面的 $f(W_1x+b_1)$ ）的向量，这个两层的模型可以表示任何关系，这个定理称为万能近似定理，至于这个定理的证明感兴趣的同学可以百度一下

这就是具有一层隐藏层的简单的深度神经网络（DNN）或多层感知机（MLP），尽管上面的例子中只有一层，但是实际上我们可以有很多层隐藏层进行叠加，多层叠加意味着参数的增加，这会增加模型的复杂性和训练的复杂度，但不一定能增强效果，因为存在过拟合的情况。有关过拟合的严格定义这里不再赘述，简单地讲就是由于参数过多，对于训练用的数据误差可以非常小，但是对于新的测试数据误差可能很大，因为模型在过多的参数影响下过于拘泥于训练数据了。

前面讲到激活函数并不需要非常复杂，事实上，对于DNN，最简单且效果最佳的激活函数是线性整流单元（ReLU）：

$ReLU(x)=max(0,x)$

ReLU函数图像

这个非线性函数是不是简单到和线性函数几乎没有区别？事实上对于一些简单的问题这是完全足够的，并且它能工作地相当好。

激活函数还有很多种，比较常见的有ReLU、Softmax、Sigmoid、Tanh等，各有优劣，并且对于激活函数的选取目前还在研究当中。

那么如何训练DNN中的参数呢？前面讲过，DNN的参数比线性的情况多，中间层可能有很多层，每层的维度也可能很高，并且引入了非线性因素，这就使得通过求每个参数的导数求精确的极值点的方法是行不通的，只能通过别的方法近似求解。

回顾一下一元函数导数的意义，导数的斜率是一个函数在该点切线的斜率，因此导数指引了函数的变化。在多维的情况下，多元函数对多个参数的偏导数组成的向量称为梯度。根据高等数学中的定理，函数在梯度方向上上升最快。这就给我们优化参数提供了思路，我们总是假设我们刚开始随机出来的初始参数是处于损失函数的较高点的，我们每次都使每一个参数沿着梯度的反方向走一定步长，这个步长称为学习率（learning rate），这样loss就会到达不同的位置，再次逐一计算，反复这样训练，直到到达一个比较令人满意的值为止。

机器学习笔记——入门总结

猜你喜欢

热点阅读