深度学习神经网络

神经网络

2018-10-18  本文已影响55人  DestinyBaozi

神经元模型:

  y=f(\sum_{i=1}^{n}w_{i}x_{i}-\theta),其中w_{i}为权值,\theta为阈值
通过激活函数处理产生的输出(sgn(x)Sigmoid(x))。

感知机:

  感知机由两层神经元组成,输入层和输出层,感知机只有一层功能神经元,学习能力有限,只能学习线性可分的问题。

感知机学习算法:

  训练函数:y=sgn(\sum_{i=1}^{n}w_{i}x_{i}-\theta)
  训练集:D\in{(x_{i},y_{i})}i=1,2,...,n
若训练集数据错误则调整对应的w_{i}\theta
  调整方法:w_{i}^{'}=w_{i}+\Delta{w_{i}}
假设y_{i}=0的被误分,即w_{i}x_{i}>\theta,而调整后的w_{i}^{'}x_{i}<\theta,由此可得
  w_{i}^{'}x_{i}=w_{i}x_{i}+\Delta{w_{i}}x_{i}<w_{i}x_{i}
\Rightarrow \Delta{w_{i}}x_{i}<0
\Rightarrow \Delta{w_{i}}=-\widehat{y_{i}}x_{i}
同理,若y_{i}=1被误分,可得\Delta{w_{i}}=\widehat{y_{i}}x_{i},以一定的学习率\alpha可得
  \Delta{w_{i}}=\alpha(y-\widehat{y})x_{i}\widehat{y}为感知机输出值

  若对\theta调整:\theta^{'}=\theta+\Delta{\theta}
假设y_{i}=0的被误分,即w_{i}x_{i}>\theta,而调整后的w_{i}x_{i}<\theta^{'},由此可得
  \theta^{'}=\theta+\Delta\theta>\theta
\Rightarrow \Delta\theta>0
\Rightarrow \Delta\theta=y_{i}-\widehat y_{i}
  即\Delta\theta=\alpha(y_{i}-\widehat y_{i})

多层网络:

标准误差逆传播算法(BP):

  训练集:D\in{(x_{i},y_{i})}i=1,2,...,n
  假设有d个输入神经元,l个输出神经元,q个隐层神经元的多层前馈网络结构,其中输出层第j个神经元的阈值用\theta_{j},隐层第h个神经元的阈值用\gamma_{h}表示,,输入层第i个神经元与隐层第h个神经元之间的权值为v_{ih},隐层第h个神经元与输出层的j个神经元之间的权值为w_{hj},第h个隐层神经元收到输入为\alpha_{h}=\sum_{i=1}^{d}v_{ih}x_{i},输出层第j个神经元收到输入为\beta_{j}=\sum_{h=1}^{q}w_{hj}b_{h}
  神经网络输出:\widehat{y}_{k}=(\widehat{y}_{1}^{k},\widehat{y}_{2}^{k},...,\widehat{y}_{l}^{k}) 即\widehat{y}_{j}^{k}=f(\beta_{j}-\theta_{j})
  网络的均方差:E_{k}=\frac{1}{2}\sum_{j=1}^{l}(\widehat{y}_{j}^{k}-y_{j}^{k})^{2}
  BP算法基于梯度下降策略,给定学习率\alpha
  \Delta{w_{hj}}=-\alpha\frac{\partial E_{k}}{\partial w_{hj}},由于w_{hj}影响到\beta_{j}\widehat{y}_{j}^{k}
\Rightarrow \frac{\partial E_{k}}{\partial w_{hj}}=\frac{\partial E_{k}}{\partial \widehat{y}_{j}^{k}}\cdot \frac{\partial \widehat{y}_{j}^{k}}{\partial \beta_{j}}\cdot\frac{\partial \beta_{j}}{\partial w_{hj}}
其中\frac{\partial \beta_{j}}{\partial w_{hj}}=b_{h},Sigmod函数性质:f^{'}(x)=(1-f(x))f(x)
g_{j}=-\frac{\partial E_{k}}{\partial \widehat{y}_{j}^{k}}\cdot \frac{\partial \widehat{y}_{j}^{k}}{\partial \beta_{j}}=-(\widehat{y}_{j}^{k}-y_{j}^{k})f^{'}(\beta_{j}-\theta_{j})=\widehat{y}_{j}^{k}(1-\widehat{y}_{j}^{k})(y_{j}^{k}-\widehat{y}_{j}^{k})
\Delta w_{hj}=\alpha g_{j}b_{h},类似可得:
  \Delta \theta_{j}=-\alpha g_{j}\Delta v_{ih}=\alpha e_{h}x_{i}\Delta \gamma_{h}=\alpha e_{h}
其中e_{h}=-\frac{\partial E_{k}}{\partial b_{h}}\cdot\frac{\partial b_{h}}{\partial \alpha_{h}}=b_{h}(1-b_{h})\sum_{j=1}^{l}w_{hj}g_{j}

上一篇下一篇

猜你喜欢

热点阅读