自然语言生成工具箱 - CO2Sum（一）

2022-01-03 本文已影响0人 processor4d

文章名称

【AAAI-2022】【Tencent AI Platform Department】CO2Sum:Contrastive Learning for Factual-Consistent Abstractive Summarization

核心要点

文章旨在抽象摘要生成方法存在的事实不一致的问题，利用对比学习机制，代替原有的后处理和机制，保证生成的摘要具有factual-consistent性质。对比学习分别作用域seq2seq的encoder和decoder。encoder部分的对比学习帮助模型重视原始文本中的事实信息，decoder部分的对比学习帮助生成的事实一致的摘要。

方法细节

问题引入

现有的抽象摘要生成方法，利用teacher forcing，通过MLE，来一步步的指导模型生成摘要文本。这些方法得到的结果通常是语法正确并且流利的，但具有一些事实错误，具体案例如下图所示，其中红色的部分为事实错误（这个lover说的不是Ashley）。

factual error case

两类方法被提出来解决这一问题，1）Fact-Input；2）Post-Edit。

Fact-Input，把事实信息表示成嵌入向量（通过encoder）。

Post-Edit，在decoding之后，纠正生成文本中的事实错误。

但是这两类方法（包括他们的结合体），需要复杂的处理过程，并且需要修改原有的模型结构。

具体做法

因此，作者提出了CO2Sum方法，其整体框架如下图所示。整体过程可以分为3个部分，

Framework of CO2Sum

生成对比学习样本。高质量的负样本至关重要，可以同替换ground truth中的实体和名词生成负样本。然而，[1]表明实体可信无误（事实正确）并不代表全部事实可信无误（事实正确）。由于事实信息和上下文的关系联系的十分紧密，如果事实信息出现错误，它将与上下文的没有联系变弱。因此，作者采用[2]中的句子压缩算法，从ground truth中识别事实信息，并将它替换成原文本中相似的词，来构造负样本。这符合information bottleneck的理论。作者称这一方法为LFN（Language model-based Fac- tual Negative sample construction）。LFN又可以分为3个部分，

候选生成。执行句子压缩算法 $T$ 次，生成候选集 $C$ 。每次句子压缩也会遍历ground truth $L$ 次（1到 $L$ ），每次从ground truth中筛选出固定长度为 $l$ 的span $SP$ ，并将其从ground truth中删除，添加到候选的自己 $C_i$ 中。最终，候选集合 $C = \{ C_i \}_{i=1}^{T}, C_i = \{ gd - sp_l \}_{l=1}^{L}$ 。

候选排序。每一个候选集合中的元素 $c \in C$ 都需要经过两阶段排序的打分，并最终选择 $top-K$ 个元素 $c$ ，记作 $T_{fragement}$ 。第一阶段，利用预训练的语言模型 $LM(c)$ 来计算prune score，具体逻辑可以参见引文[2]。第二阶段，利用语言模型 $LM(T_next|c)$ 预测在给定候选集元素的情况下，可以得到ground truth中下一句的概率（事实上 $c$ 就是一些被认为可以表示事实的关键词，而 $T_next$ 是ground truth中的上下文句子。

候选替换。 $T_{fragement}$ 中的词容易产生事实错误，所以作者利用faiss[3]将他们替换为相似的词，构造出负样本。 **值得注意的是，不同于[2]作者的句子压缩算法是应用在ground truth中的，因此ground truth中的 $T_{next}$ 可能不如原文本中的 $T_{next}$ 那样，具有比较好的连贯性。作者采用[4]中的方法，识别原文本中的oracle sentence， $G_{next}$ 。以此来完成第二阶段的评分，效果由于直接使用 $T_{next}$ 。

在编码器上进行对比学习。

在解码器上进行对比学习。

本节讲解了，作者针对摘要生成中事实错误的问题提出的解决方案框架，以及负样本生成的思路。下一节继续介绍在编码器和解码器上的对比学习。

代码实现

负样本生成的伪代码如下图所示。

LFN

心得体会

句子压缩

个人感觉，作者的主要思路是压缩出和原文oracle sentence（或者ground truth）中下一个句子关系最大的短语，span。此时，效果的好坏完全依赖于 $T_{next}或者$ G_{next}$。如果语义跳动很大，筛选出来的事实短语也许并不能够真实反映语义。

文章引用

[1] Chen, S.; Zhang, F.; Sone, K.; and Roth, D. 2021. Improv- ing Faithfulness in Abstractive Summarization with Contrast Candidate Generation and Selection. In Proceedings of the 2021 Conference of the North American Chapter of the As- sociation for Computational Linguistics: Human Language Technologies, 5935–5941.

[2] West, P.; Holtzman, A.; Buys, J.; and Choi, Y. 2019. Bot- tleSum: Unsupervised and Self-supervised Sentence Sum- marization using the Information Bottleneck Principle. In Proceedings of the 2019 Conference on Empirical Meth- ods in Natural Language Processing and the 9th Interna- tional Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 3752–3761.

[3] Johnson,J.;Douze,M.;andJe ́gou,H.2017. Billion- scale similarity search with GPUs. arXiv preprint arXiv:1702.08734.

[4] Nallapati, R.; Zhai, F.; and Zhou, B. 2017. Summarunner: A recurrent neural network based sequence model for ex- tractive summarization of documents. In Thirty-First AAAI Conference on Artificial Intelligence.