arXiv'20-(检索增强语言模型)REALM: Retrie

2023-03-26  本文已影响0人  Caucher

标题:REALM:检索增强语言模型预训练

编者的总结

  1. 作者在语言模型中嵌入了一个知识库文档的检索部分,即输入将首先找到最相关的一批文档,然后共同进入encoder预测语言模型以提升精度。
  2. 由于训练知识库文档的embedding成本很大,作者选择每次只选择其中的top-K个最相关的文档来进行训练/推理,top-K使用MIPS索引来完成。
  3. 由于MIPS索引需要提前构建,但是embedding在训练过程中会随时间改变,因此作者选择定期重建索引以解决这个问题。

1. Abstract & Introduction

image.png

2. Background

2.1 Language model pre-training

3. Approach

3.1. REALM’s generative process

REALM以一些句子为输入,输出是一个分布,即各种可能的预测及其概率。

3.2. Model architecture

3.2.1 Knowledge Retriever

3.2.2 Knowledge-Augmented Encoder

这一部分和BERT类似,用的是MLM loss,表示为token的embedding,和通过以输入和相关文档为输入的Encoder的输出embedding向量做内积。

3.3. Training

image.png

3.3.1 What does the retriever learn?

目前的训练思路是端到端的训练,包括一个retriever和一个encoder,但是这种训练目标是否意味着retriever可以找到相关性强的文档呢?作者给出了分析。

image.png
上一篇下一篇

猜你喜欢

热点阅读