百面机器学习|学习笔记

百面机器学习|第七章优化算法知识点(二)

2019-01-30  本文已影响33人  蓝白绛

前言

如果你能找到这里,真是我的幸运~这里是蓝白绛的学习笔记,本集合主要针对《百面机器学习——算法工程师带你去面试》这本书。主要记录我认为重要的知识点,希望对大家有帮助。

第七章 优化算法

6、随机梯度下降法的加速

  1. 随机梯度下降是深度学习中最常用的优化方法,但是偶尔也会失效,因为随机梯度下降好比蒙上眼睛只凭脚底踩石头的感觉判断下山路径,每步接收到的信息量有限,因此对梯度的估计常常出现偏差,造成目标函数曲线收敛很不稳定,伴有剧烈波动,甚至出现不收敛的情况。如下图所示。
    7-6 随机梯度下降参数优化轨迹
  2. 随机梯度下降与批量梯度下降:批量梯度下降法为了获取准确的梯度,每一步都把整个训练集载入进来进行计算,时间花费和内存开销都非常大,无法应用于大数据集、大模型的场景。随机梯度下降则放弃了对梯度准确性的追求,每步仅仅随机采样一个(或少量)样本来估计当前梯度,计算速度快,内存开销小。
  3. 对随机梯度下降法来说,最可怕的不是局部最优点,而是山谷鞍点两类。山谷点导致收敛不稳定收敛速度慢;鞍点导致随机梯度下降法无法准确察觉出梯度的微小变化,结果就停滞下来。
  4. 随机梯度下降法的优化:随机梯度下降本质上是用迭代方式更新参数,更新公式为:\theta_{t+1}=\theta_t+\eta g_t基于梯度下降有以下几种优化方法:

7、L1正则化与稀疏性

  1. 稀疏性:稀疏性是我们希望的。我们希望模型参数具有稀疏性,也就是模型的很多参数是0(是0而不是很小很小的数)。这相当于对模型进行了一次特征选择,只留下一些比较重要的特征,提高模型的泛化能力降低过拟合的可能。在实际应用中,机器学习模型的输入动辄几百上千万维,稀疏性就显得非常重要。
  2. L1正则化产生稀疏解的原因:

小结

这是本章的第二部分,第一部分讲了常见的损失函数、常见的优化方法、批量梯度下降、随机梯度下降、小批量梯度下降。第二部分主要讲梯度下降法的优化,有动量方法、AdaGrad方法、Adam方法等等,还讲了L1正则化产生稀疏解的原因,从三个角度分别解释,理解还是比较难的。

结尾

如果您发现我的文章有任何错误,或对我的文章有什么好的建议,请联系我!如果您喜欢我的文章,请点喜欢~*我是蓝白绛,感谢你的阅读!

上一篇下一篇

猜你喜欢

热点阅读