反向传播（BP）算法

2019-08-07 本文已影响0人 littlewonbin

在神经网络训练过程中，反向传播可以说是迄今为止用途最成功的算法。而其本质可以说是非常简单：多元函数微分链式法则。同时再用一些trick降低计算量。下面具体说明反向传播的过程。

首先要明确的一点就是，反向传播是在运行梯度下降时，通过靠后的神经元层的梯度来计算考前的神经元层的梯度的，也就是说，这个算法就是用来算梯度的。

以单隐含层的神经网络为例说明，如上图的神经网络中对于训练集中的某个点 $(\vec{x_k},\vec{y_k})$ ，假设激活函数为sigmoid，那么我们有

其中 $\dot{W^{(1)}}$ 为二阶张量，即第一隐含层的权重矩阵，如果我们采用均方误差，那么我们的目标函数（cost function）为

$E_k=\frac{1}{2}||\vec{y_k}-\hat{\vec{y_k}}||^2$

BP算法基于的梯度下降（gradient desent）中每一步改变的量为

$\Delta W_{hj} = -\alpha\frac{\partial E_k}{\partial W_{hj}}$

现在我们基于链式法则分解这个微分项

$\frac{\partial E_k}{\partial W_{hj}} = \frac{\partial E_k}{\partial \hat{y_j}} \cdot \frac{\partial \hat{y_j}}{\partial \beta_j} \cdot \frac{\partial \beta_j}{\partial W_{hj}}$

其中 $\hat{y_j}$ 为 $\hat{\vec{y}}$ 中的某一项， $\beta_j$ 为 $\hat{{y_j}}$ 对应单元未经过激活前的值，注意到

$\frac{\partial \beta_j}{\partial W_{hj}}=b_h$

那么记

$g_j = -\frac{\partial E_k}{\partial \hat{y_j}} \cdot \frac{\partial \hat{y_j}}{\partial \beta_j}$

注意到， $\frac{\partial E_k}{\partial \hat{y_j}} ，\frac{\partial \hat{y_j}}{\partial \beta_j}$ 都是可以直接计算（激活函数和目标函数的一阶微分）的，所以原公式更新为 $\Delta W_{hj} = -\alpha g_j b_h$

由该公式可以有效地更新 $\dot{W^{(1)}}$ ，下面来看梯度是如何传播的。

设输入层到隐含层的权重矩阵为 $\dot{V^{(0)}}$ ，即

$\hat{\vec{b}}=\sigma(\dot{V^{(0)}}^T\vec{x_k})$

同上对于 $\dot{V^{(0)}}$ 中的每一项，有

$\Delta V_{ih} = -\alpha\frac{\partial E_k}{\partial V_{ih}} = -\alpha \frac{\partial E_k}{\partial b_h} \cdot \frac{\partial b_h}{\partial \alpha_h} \cdot \frac{\partial \alpha_h }{\partial v_{ih}}$

其中 $b_h$ 为 $\hat{\vec{b}}$ 中的每一项， $\alpha_h$ 为线性结果。我们采用类似上面的处理，记

$e_h=-\frac{\partial E_k}{\partial b_h} \cdot \frac{\partial b_h}{\partial \alpha_h} =- \sum_{j=1}^{l}\frac{\partial E_k}{\partial \beta_j} \cdot \frac{\partial\beta_j}{\partial b_h} \cdot \frac{\partial b_h}{\partial \alpha_h} = -\sum_{j = 1}^{l}w_{hj}g_j\frac{\partial b_h}{\partial \alpha_h}$

我们看到，传播的代价就是相比之前多了一次求和，这样没传播一次，只需进行 $l\times h$ 规模的多重和，和计算激活函数的导数，如果激活函数的导数再具有一些性质，计算将变得更加简单，例如sigmoid函数

$\frac{d\sigma(x)}{dx} = \sigma(x)(1-\sigma(x))$

这将进一步简化之前的公式。

反向传播（BP）算法

猜你喜欢

热点阅读