程序员

L2正则化

2018-04-05  本文已影响0人  zzkdev

介绍

如果神经网络过度拟合了数据,也就是存在高方差问题。我们经常会使用正则化来降低方差,也可以准备更多的数据,但是有时无法获取到足够的数据或者说获取数据的成本很高,所以正则化是一个很好的方法来解决过拟合问题。

实现

公式

L2正则化

解释

加上正则化项后如何实现实现梯度下降

反向传播时:
更新参数:
事实上,这相当于我们把矩阵W减去αλ/m倍的它,避免权重矩阵过大,这也时L2正则化有时被叫做权重衰减的原因

为什么正则化可以降低方差

直观上理解

如果正则化λ设置得足够大,权重矩阵W将被设置为接近于0的值,也就是把多个隐藏单元的权重设为0,消除了这些隐藏单元的许多影响。
这个大大简化了的神经网络会变成一个很小的网络,小到如同一个逻辑回归单元,可是深度却很大,使过拟合的网络变成更接近高偏差的状态,但是λ会存在一个中间值,使得这个网络维持在一个低方差且偏差不那么高的状态。

下面以tanh为激活函数为例子


当λ参数变大时,W矩阵变小,相应地Z矩阵也会变小,使得它维持在中间红色的部分,即相对线性的部分,使得网络更加线性,表达能力减弱,从而实现减低方差的功能

问题

注意事项

参考资料

上一篇 下一篇

猜你喜欢

热点阅读