大数据,机器学习,人工智能机器学习经验App:聚合职场优选内容

前馈神经网络的正向传播和反向传播算法的推导

2019-04-19  本文已影响4人  壮志_凌云
单个神经元

    首先对本文中使用的符号进行解释,本文中出现的向量都默认为列向量m表示样本数量,n表示单个样本包含的输入特征数量,x^{(i)}_j表示第i个样本的第j个特征值。l表示从1开始计数的神经网络层号,L表示最大层号,K表示第L层包含的神经元数量(即输出特征数量)。n_l表示第l层包含的神经元数量。z^{(l)}_ja^{(l)}_j分别表示l层第j个神经元的状态值和激活值,z^{(l)}表示第l层中所有神经元的状态值组成的向量,a^{(l)}表示第l层中所有神经元的激活值组成的向量。w^{(l)}_{j,i}(l \geq 2)表示第l-1层的第i个神经元与第l层的第j个神经元连接的权重,b^{(l)}_j表示第l层的第j个神经元的偏置。w ^{(l)}_j表示第l层的第j个神经元与第l-1层中神经元连接的权重向量,\theta^{(l)}_j = ( \begin{bmatrix} b^{(l)}_j ,(w^{(l)}_j)^T \end{bmatrix} )^T表示该神经元的线性变换向量。W^{(l)}表示第l层中所有神经元的权重向量组成的权重矩阵,每个神经元的权重向量是它的一个列向量;\Theta^{(l)}表示第l层中所有神经元的线性变换向量组成的矩阵,每个神经元的线性变换向量是它的一个列向量。

    上面图片所示的是单个神经元,其中z^{(l)}_j是神经元的状态值,a^{(l)}_j是神经元的激活值,\theta ^{(l)}_j是从上一层神经网络到该神经元的线性变换向量(\theta ^{(l)}_j为偏置b^{(l)}_j和权重向量w^{(l)}_j组成的向量)。g为激活函数,本文中采用sigmoid函数作为激活函数,即g = (1 + e^{-z})^{-1},那么a^{(l)}_j = g(z^{(l)}_j)

一、正向传播算法

        神经网络的正向传播算法,从输入层到隐藏层最后到输出层,依次计算每个神经元的状态值和激活值。在输入层中,a^{(1)} = x^{(i)},那么第l层的第j个神经元的状态值和激活值有下面的递推公式:

    z^{(l)}_j = ( \theta^{(l)}_j )^T * \begin{bmatrix} 1 \\ a^{(l-1)} \end{bmatrix}, a^{(l)}_j = g(z^{(l)}_j) , l \geq 2

    第l层中所有神经元的状态值和激活值有下面的递推公式:

    z^{(l)} = ( \Theta^{(l)} )^T * \begin{bmatrix} 1 \\ a^{(l-1)}  \end{bmatrix} , a^{(l)} = g(z^{(l)}) , l \geq 2

    这样,根据输入层的激活值,使用递推公式就可以从输入层向后依次计算出每层神经网络的状态值和激活值。这就是正向传播算法。

二、反向传播算法

    神经网络的反向传播算法,用于计算损失函数关于每个权重w^{(l)}_{j,i}和偏置b^{(l)}_j的偏导数,与具体损失函数的形式无关。另外,假设本文中涉及的函数都是可微的,那么就可以使用链式法则来计算偏导数

    设J为损失函数,那么它是一个高度复合的函数,可以看作是关于w^{(l)}_{j,i}b^{(l)}_j的函数,也可以看作是关于z^{(l)}_j的函数。设\delta^{(l)}_i = \frac{\partial J}{\partial z^{(l)}_i} , l \geq 2是第l层的第i个神经元的误差率,下面我们来计算\delta^{(l)}_i

    第l层的第i个神经元与第l+1层的所有神经元相连,损失函数可以看作是关于z^{(l+1)}_j的函数,z^{(l+1)}_j又是z^{(l)}_i的函数,即损失函数作为复合函数有n_{j+1}条路径可以到达z^{(l)}_i,那么:

    \delta^{(l)}_i = \frac{\partial J}{\partial z^{(l)}_i}  = \sum_{j=1}^{n_{l+1}} (\frac{\partial J}{\partial z^{(l+1)}_j}  * \frac{\partial z^{(l+1)}_j}{\partial a^{(l)}_i} * \frac{\partial a^{(l)}_i}{\partial z^{(l)}_i})= ( \sum_{j=1}^{n_{l+1}} \delta^{(l+1)}_j * w^{(l+1)}_{j,i})* g^{(1)}(z^{(l)}_i)

    \frac{\partial J}{\partial w^{(l)}_{j,i}} = \frac{\partial J}{\partial z^{(l)}_j} * a^{(l-1)}_i = \delta^{(l)}_j * a^{(l-1)}_i

    \frac{\partial J}{\partial b^{(l)}_j} = \frac{\partial J}{\partial z^{(l)}_j} * 1 = \delta^{(l)}_j

    那么,第l层中所有神经元的误差率组成的向量,和,第l层的线性变换矩阵的偏导数,有下面的递推公式:

    \delta^{(l)} = W^{(l+1)} * \delta^{(l+1)} \odot  g^{(1)}(z^{(l)}) , l \geq 2

    \frac{\partial J}{\partial W^{(l)}} = a^{(l-1)} * (\delta^{(l)})^T

    \frac{\partial J}{\partial \Theta^{(l)}} = \begin{bmatrix}  1 \\ a^{(l-1)}  \end{bmatrix}  * ( \delta^{(l)} )^T

    这样,\delta^{(L)}可以由损失函数的形式直接求出,使用递推公式就可以从输出层向前依次计算出每层神经网络的误差率和线性变换矩阵的偏导数。这就是反向传播算法。

    如果使用sigmoid激活函数和下面形式的损失函数:

    J(\Theta) = -m^{-1} * \sum_{i}^m \sum_{k}^K ( y^{(i)}_k * ln(a^{(i)}_k) + (1 - y^{(i)}_k) * ln(1 - a^{(i)}_k ) ) + \frac{\lambda}{2m} \sum_{l=2}^L \sum_{j=1}^{n_l} \sum_{i=1}^{n_{l-1}} ( \theta^{(l)}_{j,i} )^2

    那么可以计算出只有单个样本时第L层的误差率为\delta^{(L)} = a^{(L)} - y,分别计算出单个样本时参数的偏导数,然后将所有样本的偏导数相加,即可计算出损失函数关于所有样本时参数的偏导数。

上一篇下一篇

猜你喜欢

热点阅读