RealFormer
2022-05-10 本文已影响0人
Valar_Morghulis
Residual Attention Layer Transformers
ACL-IJCNLP 2021
https://arxiv.org/abs/2012.11747
Submitted on 21 Dec 2020 (v1), last revised 10 Sep 2021 (this version, v3)
苏老师解读:https://kexue.fm/archives/8027 (评论区值得一读)
https://github.com/google-research/google-research/tree/master/realformer
Transformer是现代NLP模型的支柱。在本文中,我们提出了RealFormer,这是一种简单而通用的技术,用于创建剩余注意层变换器网络,该网络在广泛的任务中(包括蒙面语言建模、粘合、团队、神经机器翻译、WikiHop、HotpotQA、自然问题和OpenKP)的表现明显优于规范变换器及其变体(BERT等)。我们还从经验上观察到,RealFormer可以稳定训练,并导致注意力更稀疏的模型。RealFormer的源代码和预先培训的检查点可以在这个https URL上找到。