CoLT5:具有条件计算的更快的长输入Transformers

2023-03-22  本文已影响0人  Valar_Morghulis

CoLT5: Faster Long-Range Transformers with Conditional Computation

Mar 2023

Joshua Ainslie, Tao Lei, Michiel de Jong, Santiago Ontañón, Siddhartha Brahma, Yury Zemlyanskiy, David Uthus, Mandy Guo, James Lee-Thorp, Yi Tay, Yun-Hsuan Sung, Sumit Sanghai

[Google Research]

https://arxiv.org/abs/2303.09752

许多自然语言处理任务都受益于长输入,但使用Transformer处理长文档的成本很高——这不仅是由于二次注意力的复杂性,还因为将前馈和投影层应用于每个令牌。然而,并不是所有的令牌都同等重要,尤其是对于较长的文档。我们提出了CoLT5,这是一个长输入Transformer模型,它通过使用条件计算建立在这种直觉的基础上,将更多的资源用于前馈层和注意力层中的重要令牌。我们表明,CoLT5通过更快的训练和推理实现了比LongT5更强的性能,在长输入SCROLLS基准上实现了SOTA。此外,CoLT5可以有效且易于处理地利用超长输入,显示出高达64k输入长度的强大增益。

上一篇 下一篇

猜你喜欢

热点阅读