反向传播算法

2019-06-26  本文已影响0人  jerrychenly

反向传播算法(Backpropagation Algorithm,简称BP算法)是深度学习的重要思想基础,本文将介绍该算法的原理。


上图是一个简单的神经网络,我们用它来实现二分类。我们给它一个输入样本(x_1, x_2),通过前向运算得到输出 \hat{y},输出值\hat{y}的值域为[0,1],例如\hat{y}的值越接近0,代表该样本是"0"类的可能性越大,反之是"1"类的可能性大。

一、首先我们来看看前向传播的过程:

输入的样本为:\vec{a}=\left(x_{1}, x_{2} \right)

​第一层网络参数为: ​第二层网络参数为: ​第三层网络参数为:

1、第一层隐藏层:

​第一层有三个神经元neu_{1}neu_{2}neu_{3}。该层的输入为:z^{(1)}=W^{(1)} *(\vec{a})^{T}+\left(b^{1}\right)^{T} ,故此可得:

z_{1}=w_{ x_{1}, 1} * x_{1}+w_{x_{2}, 1} * x_{2}+b_{1}

z_{2}=w_{x_{1}, 2} * x_{1}+w_{x_{2}, 2} * x_{2}+b_{2}

z_{3}=w_{x_{1}, 3} * x_{1}+w_{x_{2}, 3} * x_{2}+b_{3}

假设第一层的激活函数为f(x)(上图中的激活函数都标了一个下标,一般情况下,同一层的激活函数都一样,不同层可以选择不同的激活函数),那么第一层的输出为:f_{1}(z_{1})f_{2}(z_{1})f_{3}(z_{1})

​2、第二层隐藏层:

第二层有两个神经元neu_{4}neu_{5}。该层的输入为:\mathbf{z}^{(2)}=W^{(2)} *\left[\mathbf{z}_{1}, \mathbf{z}_{2}, \mathbf{z}_{3}\right]^{T}+\left(b^{2}\right)^{T} ,即第二层的输入是第一层的输出乘以第二层的权重,再加上第二层的偏置,所以第二层两个神经元的输入为:
\mathrm{z}_{4}=w_{1,4} * \mathrm{z}_{1}+w_{2,4} * \mathrm{z}_{2}+w_{3,4} * \mathrm{z}_{3}+b_{4}

\mathrm{z}_{5}=w_{1,5} * \mathrm{z}_{1}+w_{2,5} * \mathrm{z}_{2}+w_{3,5} * \mathrm{z}_{3}+b_{5}

所以第二层的输出为:f_{4}(z_{4})f_{5}(z_{5})

​3、输出层:

​输出层只有一个神经元neu_{6}。该层的输入为:z^{(3)}=W^{(3)} *\left[z_{4}, z_{5}\right]^{T}+\left(b^{3}\right)^{T} 即:z_{6}=w_{4,6} * \mathrm{z}_{4}+w_{5,6} * \mathrm{z}_{5}+b_{6}

​因为该网络要解决一个二分类的问题,所以输出层的激活函数也可以使用一个sigmoid型函数,神经网络最后的输出为:f_{6}(z_{6})

二、反向传播的过程

上面我们已经知道了数据沿着神经网络前向传播的过程,现在我们来看看反向传播的过程。反向传播算法会对特定样本的预测输出和理想输出进行比较,然后确定网络的每个权重的更新幅度。假设我们使用随机梯度下降的方式来学习神经网络的参数,损失函数定义为L(y,\hat{y}),其中y是该样本的真实列表。使用梯度下降进行参数学习,我们需要计算出损失函数关于神经网络中各层参数(权重w和偏置b)的偏导数。

​假设我们要对第k层隐藏层的参数W^{(k)}b^{(k)}求偏导数,即求\frac{\partial L(y, \hat{y})}{\partial W^{(k)}}\frac{\partial L(y, \hat{y})}{\partial b^{(k)}}
假设z^{(k)}代表第k层神经元的输入,即z^{(k)}=W^{(k)}*n^{(k-1)}+b^{(k)},其中n^{(k-1)}为前一层神经元的输出,根据链式法则有:\frac{\partial L(y, \hat{y})}{\partial W^{(k)}}=\frac{\frac{\partial L(y, \hat{y})}{\partial z^{(k)}} * \partial z^{(k)}}{\partial W^{(k)}} \frac{\partial L(y, \hat{y})}{\partial b^{(k)}}=\frac{\frac{\partial L(y, \hat{y})}{\partial z^{(k)}} * \partial z^{(k)}}{\partial b^{(k)}}
因此,我们只需要分别计算偏导数\frac{\partial L(y, \hat{y})}{\partial z^{(k)}}\frac{\partial z^{(k)}}{\partial W^{(k)}}\frac{\partial z^{(k)}}{\partial b^{(k)}}

1、计算偏导数\frac{\partial z^{(k)}}{\partial W^{(k)}}\frac{\partial z^{(k)}}{\partial b^{(k)}}

上式中,W_{m:}^{(k)}代表第k层神经元的权重矩阵W^{(k)}的第m行,W_{mn}^{(k)}代表第k层神经元的权重矩阵W^{(k)}的第m行中的第n列。

​偏置b是一个常数项,因此偏导数的计算也很简单:



得到计算结果是单位矩阵。

2、计算偏导数\frac{\partial L(y, \hat{y})}{\partial z^{(k)}}

​偏到数\frac{\partial L(y, \hat{y})}{\partial z^{(k)}}又称为误差项(也称“灵敏度”),一般用\delta表示,例如\delta^{(1)}=\frac{\partial L(y, \hat{y})}{\partial z^{(1)}}是第一层神经元的误差项,其值的大小代表了第一层神经元对于最终总误差的影响大小。

​根据前向计算,我们知道第k+1层的输入与第k层输出的关系为:\mathbf{z}^{(k+1)}=W^{(k+1)} * n^{(k)}+b^{k+1}

​又因为n^{(k)}=f_{k}\left(z^{(k)}\right),根据链式法则,我们可以得到\delta^{(k)}为:
\begin{array}{l}{\delta^{(k)}=\frac{\partial \mathrm{L}(\mathrm{y}, \hat{\mathrm{y}})}{\partial z^{(k)}}} \\ {=\frac{\partial n^{(k)}}{\partial z^{(k)}} * \frac{\partial z^{(k+1)}}{\partial n^{(k)}} * \frac{\partial \mathrm{L}(\mathrm{y} \hat{\mathrm{y}})}{\partial z^{(k+1)}}} \\ {=\frac{\partial n^{(k)}}{\partial z^{(k)}} * \frac{\partial z^{(k+1)}}{\partial n^{(k)}} * \delta^{(k+1)}} \\ {=f_{k}^{\prime}\left(z^{(k)}\right) *\left(\left(W^{(k+1)}\right)^{T} * \delta^{(k+1)}\right)}\end{array}

​由上式我们可以知道,第k层神经元的误差项\delta^{(k)}是由第k+1层的误差项乘以第k+1层的权重,再乘以第k层激活函数的导数(梯度)得到的。这就是误差的反向传播

​到这里,我们可以分别计算出损失函数关于权重和偏置的偏导数了:
\frac{\partial L(y, \hat{y})}{\partial W^{(k)}}=\frac{\frac{\partial L(y, \hat{y})}{\partial z^{(k)}} * \partial z^{k}}{\partial W^{k}}=\delta^{k} *\left(n^{(k-1)}\right)^{T}
\frac{\partial L(y, \hat{y})}{\partial b^{(k)}}=\frac{\frac{\partial L(y, \hat{y})}{\partial z^{(k)}} * \partial z^{k}}{\partial b^{k}}=\delta^{k}

​有了上面两个偏导数,我们就能够利用随机梯度下降算法来更新参数。

​这里有google教程里面讲的BP算法的推算过程:https://google-developers.appspot.com/machine-learning/crash-course/backprop-scroll/?hl=zh-cn

上一篇下一篇

猜你喜欢

热点阅读