各种Optimizer梯度下降优化算法回顾和总结

2021-02-23 本文已影响0人 Himmelize

姓名：李泽学号：20021110073 学院：电子工程学院

转载于：微信公众号“人工智能算法与Python大数据”

原文链接：https://mp.weixin.qq.com/s/zMCWw9_UaGO3T6lKhipFAA

【嵌牛导读】：当前使用的许多优化算法，是对梯度下降法的衍生和优化。在微积分中，对多元函数的参数求偏导数，把求得的各个参数的导数以向量的形式写出来就是梯度。梯度就是函数变化最快的地方。梯度下降是迭代法的一种，在求解机器学习算法的模型参数时，即无约束问题时，梯度下降是最常采用的方法之一。

【嵌牛鼻子】：代价函数模型参数梯度

【嵌牛提问】：个优化算法的理论基础分析，仿真分析优缺点以及优缺点？

【嵌牛内容】

论文标题：An overview of gradient descent optimization algorithms

原文链接：https://arxiv.org/pdf/1609.04747.pdf

Github：NLP相关Paper笔记和代码复现（https://github.com/DengBoCong/nlp-paper）

说明：阅读论文时进行相关思想、结构、优缺点，内容进行提炼和记录，论文和相关引用会标明出处，引用之处如有侵权，烦请告知删除。

不管是使用PyTorch还是TensorFlow，用多了Optimizer优化器封装好的函数，对其内部使用的优化算法却没有仔细研究过，也很难对其优点和缺点进行实用的解释。所以打算以这一篇论文为主线并结合多篇优秀博文，回顾和总结目前主流的优化算法，对于没有深入了解过的算法，正好借这个机会学习一下。