第七章网络优化与正则化（7.3，7.4，7.5）

2020-11-07 本文已影响0人我还是霸霸

7.3 参数初始化

预训练初始化
一个已经在大规模数据上训练过的模型可以提供一个好的参数初始值
随机初始化
对称权重现象：logistic回归和感知器中一般将参数全部初始化为0，神经网络训练中如果参数都为0，在第一遍前向计算时，隐藏层神经元的激活值都相同、权重更新也相同，导致没有区分性。
为打破上述现象，较好的方式为对每个参数随机初始化
固定初始化

7.3.1 基于固定方差的参数初始化

高斯分布初始化
均匀分布初始化

7.3.3 基于方差缩放初始化

7.3.2.1 Xavier初始化

7.3.2.2 He初始化

7.3.2.3 正交初始化

为避免梯度消失或梯度爆炸问题，希望误差项在反向传播的中具有范数保持性,即 $||\sigma^{(l-1)}||^2=||\sigma^{(l)}||^2=||(\mathrm{W^{(l)}})^T\sigma^{(l)}||^2$ ，如果以均值为0，方差为 $\frac{1}{M}$ 的高斯分布来初始化权重矩阵 $W^{(l)}$ ，当M趋于无穷时，范数保持性成立。
正交初始化实现过程可分为：
1）用均值为0、方差为1的高斯分布初始化一个矩阵
2）将这个矩阵用奇异值分解得到两个正交矩阵，并使用其中一个作为权重矩阵

7.4 数据预处理

神经网络中常使用的归一化方法

最小最大值归一化
通过缩放将每一个特征的取值范围归一到[0,1]或[-1,1]之间。假设有N个样本 $\{x^{(n)}\}_{n=1}^N$ ，对于一维特征 $x$ ,归一化的特征为 $\hat{x}^{(n)}=\frac{x^{(n)}-min_n(x^{(n)})}{max_n(x^{(n)})-min_n(x^{(n)})}$ ，其中min(x)和max(x)分别是特征 $x$ 在所有样本上的最小、最大值。
标准化
将每一维特征都调整为均值为0，方差为1。得到新的特征值 $\hat{x}^{(n)}=\frac{x^{(n)}-\mu}{\sigma}$ ，其中 $\mu、\sigma$ 分别为每一维特征 $x$ 的均值和标准差。 $\sigma$ 不能为0，如果标准差为0，说明这一维度特征没区分性，可以直接删掉你
白化
一种预处理方法，用来降低数据特征之间的冗余性。一个主要的实现方式为PCA 。

第七章网络优化与正则化（7.3，7.4，7.5）

7.3 参数初始化

7.3.1 基于固定方差的参数初始化

7.3.3 基于方差缩放初始化

7.3.2.1 Xavier初始化

7.3.2.2 He初始化

7.3.2.3 正交初始化

7.4 数据预处理

7.5 逐层归一化

7.5.1 批量归一化

7.5.2 层归一化

7.5.3 权重归一化

7.5.4 局部响应归一化

猜你喜欢

热点阅读

第七章 网络优化与正则化（7.3，7.4，7.5）

7.3 参数初始化

7.3.1 基于固定方差的参数初始化

7.3.3 基于方差缩放初始化

7.3.2.1 Xavier初始化

7.3.2.2 He初始化

7.3.2.3 正交初始化

7.4 数据预处理

7.5 逐层归一化

7.5.1 批量归一化

7.5.2 层归一化

7.5.3 权重归一化

7.5.4 局部响应归一化

猜你喜欢

热点阅读

第七章网络优化与正则化（7.3，7.4，7.5）