[fairseq] 关于bpe-backend2019-04-25 本文已影响0人 VanJordan 这是用来控制多卡协作更新参数的方法,如果是在多卡上运行的那么就设置bpe-backend=no_c10d,这样可以加快运算速度。 如果是在单卡上运行的那么即使设置了梯度累积也也要用默认的bpe-backend=c10d