RealFormer

2022-05-10  本文已影响0人  Valar_Morghulis

Residual Attention Layer Transformers

ACL-IJCNLP 2021

https://arxiv.org/abs/2012.11747

Submitted on 21 Dec 2020 (v1), last revised 10 Sep 2021 (this version, v3)

苏老师解读:https://kexue.fm/archives/8027   (评论区值得一读)

https://github.com/google-research/google-research/tree/master/realformer

Transformer是现代NLP模型的支柱。在本文中,我们提出了RealFormer,这是一种简单而通用的技术,用于创建剩余注意层变换器网络,该网络在广泛的任务中(包括蒙面语言建模、粘合、团队、神经机器翻译、WikiHop、HotpotQA、自然问题和OpenKP)的表现明显优于规范变换器及其变体(BERT等)。我们还从经验上观察到,RealFormer可以稳定训练,并导致注意力更稀疏的模型。RealFormer的源代码和预先培训的检查点可以在这个https URL上找到。

上一篇下一篇

猜你喜欢

热点阅读