各种梯度下降算法及其变体的比较

2016-06-14 本文已影响161人 Dorts

http://blog.csdn.net/luo123n/article/details/48239963

Karpathy做了一个这几个方法在MNIST上性能的比较，其结论是：adagrad相比于sgd和momentum更加稳定，即不需要怎么调参。而精调的sgd和momentum系列方法无论是收敛速度还是precision都比adagrad要好一些。在精调参数下，一般Nesterov优于momentum优于sgd。而adagrad一方面不用怎么调参，另一方面其性能稳定优于其他方法。

最新Adam更新算法介绍
http://sebastianruder.com/optimizing-gradient-descent/

各种梯度下降算法及其变体的比较

猜你喜欢

热点阅读