各种梯度下降算法及其变体的比较
2016-06-14 本文已影响161人
Dorts
http://blog.csdn.net/luo123n/article/details/48239963
Karpathy做了一个这几个方法在MNIST上性能的比较,其结论是:adagrad相比于sgd和momentum更加稳定,即不需要怎么调参。而精调的sgd和momentum系列方法无论是收敛速度还是precision都比adagrad要好一些。在精调参数下,一般Nesterov优于momentum优于sgd。而adagrad一方面不用怎么调参,另一方面其性能稳定优于其他方法。
最新Adam更新算法介绍
http://sebastianruder.com/optimizing-gradient-descent/