《李宏毅·机器学习》读书笔记(三)Gradient Descen
2019-02-28 本文已影响56人
Spareribs
image.png
今天再把梯度下降的视频看了一遍,再次整理了一便思路。梯度下降主要是围绕 批量梯度 和 随机梯度 来进行讲解。其中包含了学习率,也就是移动的步长。通过批量梯度下降 Adagrad算法实现的讲解,再对比过渡到 随机梯度 下降。最后介绍特征缩放的方式使得梯度下降算法更快地收敛。
关注到两个比较有趣的地方:
- 再讲解Adagrad算法的时候,为什么不计算二次微分,而使用前N个一次微分平均的开方作为分母?
- 通过泰勒展开式来说明梯度下降的意义(这部分看得似懂非懂,有点晕)
视频总结的文章可以查看 《李宏毅·机器学习》读书笔记(三)Gradient Descent