激活函数

2019-06-02  本文已影响0人  stigin

1、非线性激活函数

sigmoid、tanh

问题:1、计算量大;2、容易有梯度消失问题

梯度消失问题:在反向传播中,当梯度小于1时(如sigmoid和tanh),往回传的层数愈多,梯度越小,将导致模型难以训练。

假设一个三层网络 f,g,h:y=f(g(h(x))), \frac{\Delta y}{\Delta x}= \frac{\Delta f}{\Delta g}\frac{\Delta g}{\Delta h} \frac{\Delta h}{\Delta x}, 可以看到如果梯度都是小于1,每一层的回传梯度都会发生衰减。

2、修正线性单元,rectifier linear unit,ReLu

f(x)=max(0,x)

优点:1、计算量小,同时能实现非线性映射;2、不存在梯度消失问题;3、忽略小于0的输入,使得网络具有稀疏性,即对于一个输入,网络中只有部分结构会被激活;

缺点:神经元死亡问题,即当一个很大的梯度经过某个神经元,经过更新后,这个神经元可能对所有的输入输出都是负值,那么这个神经元就死亡了。这个问题当学习率设的过大时,更容易发生。

3、learky ReLu

f(x)=max(\alpha x,x),\alpha 为大于0的一个小数,一般为0.01。

解决了relu的神经元死亡问题

上一篇 下一篇

猜你喜欢

热点阅读