RealFormer

2022-05-10 本文已影响0人 Valar_Morghulis

Residual Attention Layer Transformers

ACL-IJCNLP 2021

https://arxiv.org/abs/2012.11747

Submitted on 21 Dec 2020 (v1), last revised 10 Sep 2021 (this version, v3)

苏老师解读：https://kexue.fm/archives/8027 （评论区值得一读）

https://github.com/google-research/google-research/tree/master/realformer

Transformer是现代NLP模型的支柱。在本文中，我们提出了RealFormer，这是一种简单而通用的技术，用于创建剩余注意层变换器网络，该网络在广泛的任务中（包括蒙面语言建模、粘合、团队、神经机器翻译、WikiHop、HotpotQA、自然问题和OpenKP）的表现明显优于规范变换器及其变体（BERT等）。我们还从经验上观察到，RealFormer可以稳定训练，并导致注意力更稀疏的模型。RealFormer的源代码和预先培训的检查点可以在这个https URL上找到。

RealFormer

猜你喜欢

热点阅读