Felix: Flexible Text Editing Thr
2021-07-23 本文已影响0人
ltochange
论文地址:https://arxiv.org/pdf/1911.03829.pdf
除了翻译之外,对大部分的序列到序列任务,其目标句子和源句子高度重合,比如句子复述、文本摘要、语法纠错等等。因此,有时候不必从头开始生成文本,而是基于源句子一步一步修改到目标句子。
论文提出的模型,将文本生成任务转为文本编辑任务,并使用BERT模型进行预测。使用三个单独训练的模块进行处理。
在这里插入图片描述- 首先是一个tagging模型,使用BERT,对输入x进行标注,得到yt。标注类别有KEEP,DEL,INSERT(INS)。源token需要被拷贝,则分配KEEP标签;源token没有在目标序列中出现,则分配为DEL标签;在目标序列中出现,但是在源序列中没有出现,则分配INS标签。
- 然后re-ordering 模型,根据给定的输入序列x和第一步得到的标注序列yt,产生一个分布pi。根据分布pi和yt得到insertion模型的输入ym。其中pi中的每个元素代表当前词的下一个词的概率分布,如figure3所示。因为loud被预测为DEL,所以没有箭头指向它。需要注意防止产生环状。
在这里插入图片描述
- 然后将ym输入到insertion模型。需要插入的位置,设置占位符MASK,主要有两种方式mask和in-filling。mask方式:INS标签根据插入的单词个数可以分为多个INS_K标签,对应于K个MASK占位符。filling方式,INS标签只有一种,将不同单词长度插入都pad成固定长度。这两种方法,前者对tagging模型依赖比较大,后者对insertion模型依赖比较大。
-
对MASK位置的词进行预测,得到最终的结果。
在这里插入图片描述 - 三个模型可以分开训练。