深度学习知识总结 (1)

2018-10-23 本文已影响0人 LaLa_2539

ReLU

ReLU激活函数的优势

ReLU求导容易

ReLU会使一部分神经元的输出值为0，这样就造成了网络的稀疏性，减少了参数间的相互依存关系，避免出现过拟合

很好的传播梯度，避免梯度消失或者梯度爆炸现象

学习率太大如何导致梯度爆炸

L2正则化（权重衰减）

方法介绍

权重衰减等价于 $L_2$ 范数正则化（regularization），正则化通过为模型损失函数添加惩罚项使得学习出的模型参数值较小，是应对过拟合的常用手段
以“线性回归”中的损失函数为例
$\cal L(w_1, w_2, b) = \frac{1}{n} \sum_{i = 1}^n \frac{1}{2}(x_1^{(i)}w_1 + x_2^{(i)}w_2 + b - y^{(i)})^2$
其中 $w_1,w_2$ 是权重参数， $b$ 是偏差参数，样本 $i$ 的输入为 $x_1^{(i)}, x_2^{(i)}$ ，标签为 $y{(i)}$ ，样本数为 $n$ ，将权重参数用向量 $w = [w_1, w_2]$ 表示，带有 $L_2$ 范数惩罚项的新损失函数为
$\cal L(w_1, w_2, b) + \frac{\lambda}{2n}||w||^2$
其中 $\lambda$ 为权重衰减系数， $\lambda$ 越大，代表惩罚越严重，权重 $w$ 越小，上式中 $L_2$ 范数平方 $||w||^2$ 展开后得到 $w_1^2 + w_2^2$ ，有了 $L_2$ 范数惩罚项之后，在小批量随机梯度下降中，权重 $w_1,w_2$ 的更新方式为
$w_1\leftarrow(1 - \frac{\eta \lambda}{|\cal B|})w_1 - \frac{\eta}{|\cal B|}\sum_{i \in \cal B}x_1^{(i)}(x_1^{(i)}w_1 + x_2^{(i)}w_2 + b - y^{(i)})$
$w_2\leftarrow(1 - \frac{\eta \lambda}{|\cal B|})w_2 - \frac{\eta}{|\cal B|}\sum_{i \in \cal B}x_2^{(i)}(x_1^{(i)}w_1 + x_2^{(i)}w_2 + b - y^{(i)})$
其中， $\eta$ 为学习率， $|\cal B|$ 代表每个小批量中的样本个数（批量大小，batch-size）

权重衰减可有效防止过拟合

上述可知， $L_2$ 范数正则化令权重 $w_1,w_2$ 先自乘小于 $1$ 的数，再减去不含惩罚项的梯度，因此， $L_2$ 范数正则化又叫权重衰减。权重衰减通过惩罚绝对值较大的模型参数为需要学习的模型增加了限制，这可能对过拟合有效

权重衰减防止过拟合的理论依据

（1）权重衰减意味着更小的权值，从某种意义上来说更小的权值意味着网络的复杂度越低，对数据的拟合刚刚好（奥卡姆剃刀：“如无必要，勿增实体” —— 简单有效原理）
（2）过拟合的时候，拟合函数的系数往往非常大，而权重衰减通过约束参数的范数使其不要太大
为什么过拟合的时候拟合函数的系数会很大：过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大，在某些很小的区间里，函数值的变化相当剧烈，这就说明函数在某些小区间里的导数值（绝对值）非常大，由于自变量可大可小，所以只有系数足够大，才能保证导数值很大

image.png

深度学习知识总结 (1)

ReLU

学习率太大如何导致梯度爆炸

L2正则化（权重衰减）

猜你喜欢

热点阅读