使用基于t2t的transformer做NMT的一些你需要知道的

2019-04-03  本文已影响0人  VanJordan

总览

训练加速

big model和base model的对比

max_length参数的影响

max_length这个参数基本不用改,因为如果训练的bs足够大的话,修改只能降低效果,transformer不能翻译比训练中出现最长的句子还要长的句子。

bs的影响

学习率lr和warmup的影响

多GPU的影响

transformer不使用bn和SGD

checkpoint average的影响

上一篇 下一篇

猜你喜欢

热点阅读