2019-01-12-DL500问第三章

2019-01-19  本文已影响0人  Ether_Pi

梯度消失?

梯度爆炸

权重矩阵的退化?

前向传播

反向传播

超参数

常见设 置超参数的做法有:

  1. 猜测和检查:根据经验或直觉,选择参数,一直迭代。
  2. 网格搜索:让计算机尝试在一定范围内均匀分布的一组值。
  3. 随机搜索:让计算机随机挑选一组值。
  4. 贝叶斯优化:使用贝叶斯优化超参数,会遇到贝叶斯优化算法本身就需要很多的参数的困难。
  5. 在良好初始猜测的前提下进行局部优化:这就是 MITIE 的方法,它使用 BOBYQA 算法,并有一个精心选择的起始点。由于 BOBYQA 只寻找最近的局部最优解,所以这个方法是 否成功很大程度上取决于是否有一个好的起点。在 MITIE 的情况下,我们知道一个好的起点,但这不是一个普遍的解决方案,因为通常你不会知道好的起点在哪里。从好的方面来说,这种 方法非常适合寻找局部最优解。稍后我会再讨论这一点。
  6. 最新提出的 LIPO 的全局优化方法。这个方法没有参数,而且经验证比随机搜索方法好

激活函数

如何选择激活函数?

  1. 如果输出是 0、1 值(二分类问题),则输出层选择 sigmoid 函数,然后其它的所有单 元都选择 Relu 函数。
  2. 如果在隐藏层上不确定使用哪个激活函数,那么通常会使用 Relu 激活函数。有时,也 会使用 tanh 激活函数,但 Relu 的一个优点是:当是负值的时候,导数等于 0。
  3. sigmoid 激活函数:除了输出层是一个二分类问题基本不会用它。
  4. tanh 激活函数:tanh 是非常优秀的,几乎适合所有场合。
  5. ReLu 激活函数:最常用的默认函数,如果不确定用哪个激活函数,就使用 ReLu 或者Leaky ReLu,再去尝试其他的激活函数。 6、如果遇到了一些死的神经元,我们可以使用 Leaky ReLU 函数。

Batch_Size

归一化

  1. 线性归一化
    适用范围:比较适用在数值比较集中的情况
    缺点:如果 max 和 min 不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不 稳定。
  2. 标准差归一化
  3. 非线性归一化
  4. 局部响应归一化(公式)
  5. 批归一化(注释:在神经网络中间层也进行归一化处理,使训练效果更好的方法)
上一篇下一篇

猜你喜欢

热点阅读