XLNet: Generalized Autoregressiv

2019-09-29 本文已影响0人直接往二

1. 创新点

XLNet主要解决了Bert存在的一些问题，所以在介绍XLNet前，先简单介绍一下Bert，及其问题。

凭借对双向上下文进行建模的能力，Bert在自然语言处理任务上表现优异。
Bert有两个训练任务。

一句话中取15%的词用 $[MASK]$ 替换, 然后预测 $[MASK]$ 替换的词原来是什么词。

预测 $[MASK]$ 替换的词原来是什么词时，把 $[MAKS]$ 位置对应的最终输出输入到一个softmax层（softmax层为词汇表大小）。

虽然这允许我们获得双向预训练模型，但缺点是我们在预训练和微调之间产生不匹配，因为[MASK]在微调期间不会出现。为了缓解这种情况，我们并不总是用实际的[MASK]替换随机选择的字。

训练数据生成器随机选择15％的词进行预测。如果选择了第i个词，我们用

略

既然存在这些问题，让我们看看XLNet是怎么解决的。

XLNet，一种广义自回归预训练方法。

XLNet在20个任务上的表现优于BERT，通常大幅度提升，并在18个任务中实现最先进的结果，包括问答，自然语言推理，情感分析和文档排名。