论文泛读:《Fixing Weight Decay Regula

2018-12-16  本文已影响61人  月牙眼的楼下小黑

简 介: 在标准 SGD 优化算法中, L2 正则 等效于 Weight decay , 但在自适应梯度下降算法中, 如 Adam, 这种情况不再成立。 现有流行深度框架对 Adamweight decay 的实现均是错误的, 我们对其做了一个简单的修正, 将 weight decay 和损失函数解耦, 提升了 Adam 的泛化性能。


上一篇 下一篇

猜你喜欢

热点阅读