DL01-2:感知器训练的数学基础

2018-10-06 本文已影响34人杨强AT南京

摘要：

1、感知器的数学本质；

2、感知器的训练过程；

3、感知器训练过程的数学计算公式；

4、感知器训练的数学推导；

1、感知的数学本质

感知器的数学本质是一个函数（如果不考虑激活函数，这应该是一个线性函数）。输入一组特征数据 x⃗ = (x1，x2，⋯，xn)，经过感知器处理输出一个特征数据y。

使用图示如下：

感知器示意图

使用公式表示入：

感知器数学公式表示

不考虑激活函数的情况，实际上使用的是恒等激活函数，恒等激活函数：

恒等函数

2、感知器的分类与预测作用

感知器本质是一个函数，则可以用来分类与预测

上图对单独一个感知器来说，只能对线性可分的样本具有很好的分类作用，因为感知器本质是一个线性函数（所以分类的图表达不是特别正确）。

分类：找到一个函数，使得不同类样本在函数表示的曲线（对感知器来讲应该是直线）的两侧，从数学来讲，比如：函数输出是0就是A类样本，如果函数输出是1就是B类样本。

预测：找到一个函数，使所有样本都在尽量靠近直线，这样对函数输入任何未知数据，其输出值就是预测结果。

分类与预测本质都是一样，都是找到一个合适的函数，最后只是对函数的使用不同而已。

注意：在后面的讲解中，我们重点考虑分类的情况，预测的情况需要的时候，再单独作为主题讲解。

3、感知器训练

找到一个合适函数的过程就是感知器训练，对下面具体的数学公式来说，就是找到一组合适的权重，使得样本的输出与预期的结果接近，最好是完全一样：

感知器的数学公式

权重表示如下：

权重表示

一般情况下，需要对加权求和做一个偏置运算，这样训练感知器的时候，更加方便（注意单个感知器情况，感知器本质是一个线性函数，线性函数就是一条直线，所谓训练感知器就是调整直线，调整直线就是调整直线的斜率与截距）。其中最后一项，作为加权求和的偏置项。如果把偏置项单独表示出来，则如下。

感知器函数的截距表示

感知器训练过程可以使用如下示意图描述：

感知器训练过程示意图

其中x⃗ 表示一组输入的特征数据，ω⃗ 表示一组权重矩阵，表示如下：

输入特征数据向量与权重向量

（1）随意（一般采用随机方式）初始化一组权重 ω⃗ （包含截距）；

（2）根据一直的输入数据特征 x⃗、权重 ω⃗、激活函数 f，计算输出 y；

（3）根据计算输出 y，与样本预期值 y¯，计算ω⃗的调整值∇；

（4）根据上一步计算出来的调整值 ∇，调整 ω⃗。

对一组样本反复迭代执行上述过程，直到得到一组满意的权重为止。

4、权重调整值的计算

【分析】

感知器的训练最麻烦的是计算权重的调整值计算。我们来分析下怎么计算权重的调整值：

（1）首先要确定的是，调整权重的目的是，得到一组权重，使得输入的特征数据的输出达到我们分类的期望值。也就是感知器的实际输出值与期望输出值误差最小。

（2）我们希望找到一种度量实际输出值与期望输出值之间的误差度量方式，这种度量方式可以使用函数表示，这个函数称为误差损失函数，也就是训练过程就是找到一组权重，使得误差损失函数最小。

【损失函数表示】

度量误差的方式有很多种，最直观的误差度量方式就是距离差。这里我们采用均方误差损失函数，该函数表示如下：

均方误差损失函数

【损失函数最小与极值】

怎么计算损失函数的最小值？这个在微积分中能找到答案：极小值。

（1）极大值与极小值

极大值与极小值就是函数在其定义域的某些局部区域所达到的相对最大值或相对最小值。当函数在其定义域的某一点的值大于该点周围任何点的值时，称函数在该点有极大值; 当函数在其定义域的某一点的值小于该点周围任何点的值时，称函数在该点有极小值。这里的极大和极小只具有局部意义。

（2）极值点

极值点只能在函数不可导的点或导数为零的点上取得。

（3）极大值与极小值的数学解法

对于一元可微函数𝒇(𝑥)，它在某点x0有极值的充分必要条件是𝒇(𝑥)在𝑥0的某邻域上一阶可导，在𝑥0处二阶可导，且𝒇'(𝑥0)=0，𝒇' '(𝑥0)≠0，那么：

1）若𝒇' '(𝑥0)<0，则f在x0取得极大值；

2）若𝒇' '(𝑥0)>0，则f在x0取得极小值。

求解极值，直接解𝒇 ' (𝑥0)=0方程，可以得到极值点。

【极值点求解】

从上面的解释中，训练过程就是找到一组合适的权重ω⃗ ，使得上面定义的损失函数E 值极小（在一定的局部范围内，也就是最小，下面我们都采用最小值的说法，表示在一定局部范围内）。

由于损失函数E 值最小是对一组样本而言的，就不能采用数学方程方法来直接求解损失函数E 的最小值，而是采用极限无限逼近的方法，逼近方法如下：