论文泛读：《Fixing Weight Decay Regula

2018-12-16 本文已影响61人月牙眼的楼下小黑

简介: 在标准 SGD 优化算法中， L2 正则等效于 Weight decay ，但在自适应梯度下降算法中，如 Adam, 这种情况不再成立。现有流行深度框架对 Adam 的 weight decay 的实现均是错误的，我们对其做了一个简单的修正，将 weight decay 和损失函数解耦，提升了 Adam 的泛化性能。