自然语言生成工具箱 - Few-Shot NLG

2022-01-02 本文已影响0人 processor4d

文章名称

【ACL-2020】【Intel AI】Few-Shot NLG with Pre-Trained Language Model

核心要点

文章旨在小样本的场景下（200个驯良样本）实现自然语言生成。作者把整个结构分为两部分，1）内容选择；2）生成语句通顺的句子。其中，第二个部分利用了预训练的语言模型（主要是借鉴其中的先验知识）。作者主要研究的领域是从表格数据中生成自然语言描述。

方法细节

问题引入

人类可以快速的从源数据（特别是结构化数据）中筛选内容，组织语言进行表达。这项能力在现有的NLP场景中可以服务于之智能问答。近年来，基于神经网络的模型取得了比较大的成果，相比于原有基于槽位的模型，省去了很多人工特征工程的工作，并且生成的文本更加流畅和具有多样性。然而，这些方法需要大量的训练数据，使得基于神经网络的NLG系统难以广泛的应用到实际场景中。

因此，作者提出了few-shot natural language generation（for structure data）。该问题的训练样本数量一般只有50-200个，并且要求生成满足指标要求的文本，例如BELU > 20。

作者认为要完成这项任务需要两个技能，1）从源数据中提取有用的信息；2）生成通顺流畅的文字表达。利用预训练的语言模型可以充分利用模型学习到的语言知识，保证生成语句通顺，句意合理，并且可以快速的从小样本中学习学习核心内容。

值得注意的是，因为样本量比较少，作者采用的是比较简单的模型模型，以此来防止过拟合，期望可以得到比较好的泛化能力。

具体做法

首先，形式化定义一下问题，

样本数据为少量的结构化（表格）数据， $\{ R_i : V_i \}_{i=1}^{n}$ （可以理解为KV数据），其中 $R_i, V_i$ 分别表示表格属性和具体取值。

$V_i$ 表格值被表示为一系列文字或数字 $V_i = \{ v_j \}_{j=1}^{m}$ 。

目标，利用上述少量数据，生成通顺合理的文本描述。

作者提出的简单的模型架构可以被分为3部分，将摘要生成拆分为两个阶段，整体流程示意如下图所示。

Framework

表格数据转换（encoder）。作者采用[1]中使用的field-gated dual attention模型，来提取结构数据中的信息。

转换和复制机制（copying/switching）。图中”The swicth policy“表示文本描述生成过程中需要利用的复制和转换机制，作者收到[2]的启发，利用复制概率 $p_{copy} = sigmoid(W_c c_t + W_ss_t + W_xx_t + b)$ 来控制是从词表中自动生成，还是从原始数据中直接copy。其中， $c_t = \sum_{i}a^i_th_i$ ，而 $\{ h_i\}$ 表示encoder的hidden state， $x_t, s_t, a_t$ 分别表示解码器在第 $t$ 步的输入，hidden state以及注意力权重（这里感觉notation有一点混乱，比如 $h_i$ 是每一步的hidden state？）。这里作者强调，由于是小样本学习，很多内容是在原始表格数据中可以找到的，但是样本里没有训练到，造成OOV。所以，需要显示的训练模型哪里需要生成，哪里需要copy。作者在样本中加入了哪里是copy的标签 $j$ （groudtruth中词的index）来作为监督信号显示监督模型学习copy机制，其损失函数如下图所示，其中， $m$ 表示对齐的属性， $w_j$ 表示被copy的词。**值得注意的是，作者把匹配的属性和位置信息，以及decoder的上一步结果一起作为输入，传入decoder中。
loss function

文本生成器（generator）。作者利用预训练的GPT-2[3]作为文本生成器，这部分没有什么特别。**为了保证模型继承了之前的语言能力，作者固定词表不变。此外，由于这部分是与预训练的，而其他复制机制和注意力机制是从头训练的，因此加大了copy的超参数 $\lambda$ 来提升copy部分的损失，促进显示学习。

心得体会

组合

个人感觉，本文属于组合了多种现有模型和结构，并准确具体问题，强调了某部分的能力，比如copy机制和预训练的词表。主要的核心是贡献是提出了few shot NLG的问题，并且给出了一个简单可行的办法。

文章引用

[1] Tianyu Liu, Kexiang Wang, Lei Sha, Baobao Chang, and Zhifang Sui. 2018. Table-to-text generation by structure-aware seq2seq learning. In Proceed- ings of the Thirty-Second AAAI Conference on Ar- tificial Intelligence, (AAAI-18), the 30th innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018, pages 4881– 4888.

[2] Abigail See, Peter J. Liu, and Christopher D. Manning. 2017. Get to the point: Summarization with pointer- generator networks. In Proceedings of the 55th An- nual Meeting of the Association for Computational Linguistics, ACL 2017, Vancouver, Canada, July 30 - August 4, Volume 1: Long Papers, pages 1073–1083.

[3] Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. 2019. Language models are unsupervised multitask learners.