论文泛读:《Fixing Weight Decay Regula
2018-12-16 本文已影响61人
月牙眼的楼下小黑
简 介: 在标准 SGD
优化算法中, L2 正则 等效于 Weight decay , 但在自适应梯度下降算法中, 如 Adam
, 这种情况不再成立。 现有流行深度框架对 Adam
的 weight decay
的实现均是错误的, 我们对其做了一个简单的修正, 将 weight decay
和损失函数解耦, 提升了 Adam
的泛化性能。