2019-01-12-DL500问第三章

2019-01-19 本文已影响0人 Ether_Pi

梯度消失？

猜测和检查:根据经验或直觉，选择参数，一直迭代。
网格搜索:让计算机尝试在一定范围内均匀分布的一组值。
随机搜索:让计算机随机挑选一组值。
贝叶斯优化:使用贝叶斯优化超参数，会遇到贝叶斯优化算法本身就需要很多的参数的困难。
在良好初始猜测的前提下进行局部优化:这就是 MITIE 的方法，它使用 BOBYQA 算法，并有一个精心选择的起始点。由于 BOBYQA 只寻找最近的局部最优解，所以这个方法是否成功很大程度上取决于是否有一个好的起点。在 MITIE 的情况下，我们知道一个好的起点，但这不是一个普遍的解决方案，因为通常你不会知道好的起点在哪里。从好的方面来说，这种方法非常适合寻找局部最优解。稍后我会再讨论这一点。
最新提出的 LIPO 的全局优化方法。这个方法没有参数，而且经验证比随机搜索方法好

如果输出是 0、1 值(二分类问题)，则输出层选择 sigmoid 函数，然后其它的所有单元都选择 Relu 函数。
如果在隐藏层上不确定使用哪个激活函数，那么通常会使用 Relu 激活函数。有时，也会使用 tanh 激活函数，但 Relu 的一个优点是:当是负值的时候，导数等于 0。
sigmoid 激活函数:除了输出层是一个二分类问题基本不会用它。
tanh 激活函数:tanh 是非常优秀的，几乎适合所有场合。
ReLu 激活函数:最常用的默认函数，如果不确定用哪个激活函数，就使用 ReLu 或者Leaky ReLu，再去尝试其他的激活函数。 6、如果遇到了一些死的神经元，我们可以使用 Leaky ReLU 函数。