论文-BERT for Joint Intent Classif

2019-12-30  本文已影响0人  魏鹏飞

1. 简称

论文《BERT for Joint Intent Classification and Slot Filling》,作者Qian Chen(Speech Lab, DAMO Academy, Alibaba Group),经典的NLU论文(Semantic Frame)

2. 摘要

意图分类和空位填充是自然语言理解的两个基本任务。他们经常遭受小规模的人工标签训练数据的折磨,导致泛化能力差,尤其是对于稀有单词。

最近,一种新的语言表示模型BERT(来自变压器的双向编码器表示)有助于在大型未标记的语料库上进行预训练深层的双向表示,并为广泛的语言模型创建了最新的模型。经过简单的微调,可以完成各种自然语言处理任务。但是,在探索BERT以获得自然语言理解方面并没有付出太多努力。

在这项工作中,我们提出了一种基于BERT的联合意图分类和广告位填充模型。实验结果表明,与基于注意力的递归神经网络模型基于槽门控方法相比,我们提出的模型在多个公共基准数据集上的意图分类精度,时隙填充F1和句子级语义框架精度均取得了显着提高。

3. 引言

近年来,已经部署了各种智能扬声器并取得了巨大的成功,例如Google Home,Amazon Echo,Tmall Genie,它们促进了面向目标的对话并帮助用户通过语音交互来完成任务。自然语言理解(NLU)对于面向目标的口语对话系统的性能至关重要。 NLU通常包括意图分类和时段填充任务,旨在为用户话语形成语义解析。意图分类侧重于预测查询的意图,而槽位填充则提取语义概念。表1给出了用于用户查询“Find me a movie by Steven Spielberg”的意图分类和槽位填充的示例。


意向分类是一个预测意向标签yi的分类问题,槽位填充是一个序列标签任务,该标签将输入单词序列x =(x_1,x_2,···,x_T)标记为槽标签序列y^s =(y_1^s,y_2^s,···, y_T^s)。基于递归神经网络(RNN)的方法,尤其是门控递归单元(GRU)和长短期记忆(LSTM)模型,已经实现了意图分类和时隙填充的最新性能。最近,提出了几种用于意图分类和槽位填充的联合学习方法,以利用和建模两个任务之间的依赖关系,并提高独立模型的性能。先前的工作表明,注意力机制可帮助RNN处理长期依赖关系。因此,提出了基于注意力的联合学习方法,并实现了联合意图分类和空缺填充的最新性能。

缺少用于NLU和其他自然语言处理(NLP)任务的人类标记数据会导致泛化能力较差。为了解决数据稀疏性挑战,提出了多种技术,可使用大量未注释的文本来训练通用语言表示模型,例如ELMo(Peters等人,2018)和Generative Pre-trained Transformer(GPT)(Radford等人,2018)。可以针对NLP任务对预训练的模型进行微调,并且与在NLP上进行训练相比已经取得了显着改进特定于任务的注释数据。最近,有人提出了一种预训练技术,即来自Transformer(BERT)的双向编码器表示法(Devlin等人,2018年),并为各种NLP任务创建了最先进的模型,包括问题解答(SQuAD v1.1),自然语言推论等。

但是,在将BERT用于NLU方面并没有付出太多努力。这项工作的技术贡献有两个方面:1)我们探索了BERT预训练模型来解决NLU泛化能力差的问题; 2)我们提出了一种基于BERT的联合意图分类和空位填充模型,并证明了与相比,该模型在多个公共基准数据集上的意图分类准确性,槽位填充F1和句子级语义框架准确性上有了显着提高比基于注意力的RNN模型和时隙门模型。

4. 核心

4.1 BERT

BERT的模型架构是基于原始Transformer模型的多层双向Transformer编码器(Vaswani et al. 2017)。输入表示是WordPiece嵌入(Wu et al. 2016),位置嵌入段嵌入的串联。特别是,对于单句分类和标记任务,句段嵌入没有区别。插入特殊分类嵌入([CLS])作为第一个标记,并添加特殊标记([SEP])作为最终标记。给定输入令牌序列x =(x_1,...,x_T),BERT的输出为H =(h_1,...,h_T)

BERT模型已针对大型未标记文本采用两种策略进行了预训练,即屏蔽语言模型下一句预测。预训练的BERT模型提供了功能强大的上下文相关语句表示,并且可以通过微调过程用于各种目标任务,即意图分类和槽位填充,类似于其用于其他NLP任务的方式。

4.2 Joint Intent Classification and Slot Filling

BERT可以轻松扩展到联合意图分类和插槽填充模型。根据第一个特殊令牌([CLS])的隐藏状态(表示为h_1),可将意图预测为:

y^i=softmax(W^ih_1+b^i)\tag{1}

对于槽填充,我们将其他令牌的最终隐藏状态h_2,...,h_T馈送到Softmax层以在槽填充标签上进行分类。为了使此过程与WordPiess标记化兼容,我们将每个标记化的输入字提供给WordPiess标记器,并使用与第一子标记器相对应的隐藏状态作为SoftMax分类器的输入。

y_n^s=softmax(W^sh_n+b^s),n \in 1 ... N\tag{2}

其中h_n是与单词x_n相对应的隐藏状态的第一个子标记。

为了联合建模意图分类和广告位填充,目标制定为:

p(y^i,y^s|x)=p(y^i|x)\prod_{n=1}^Np(y_n^s|x)\tag{3}

学习目标是使条件概率$p(yi,ys | x)最大化。通过最小化交叉熵损失来对模型进行端到端微调。

4.3 Conditional Random Field

插槽标签预测取决于周围单词的预测。已经表明,结构化预测模型可以改善时隙填充性能,例如条件随机字段(CRF)。通过为BiLSTM编码器添加CRF层来改善语义角色标记。在这里,我们研究了在联合BERT模型的基础上添加CRF来建模插槽标签依赖性的功效。

5. 实验

我们在两个公共基准数据集(ATIS和Snips)上评估了提出的模型。

5.1 Data

ATIS数据集(Tür等人,2010)被广泛用于NLU研究,其中包括预订航班的人的录音。我们使用与Gooet al. (2018) 相同的数据划分方法,训练集,开发集和测试集分别包含4,478、500和893种话语。有120个插槽标签和21种意图类型用于训练集。我们还使用Snips(Coucke et al. 2018),该软件是从Snips个人语音助手收集的。训练集,开发集和测试集分别包含13,084、700和700种话语。训练集有72个插槽标签和7种意图类型。

5.2 Training Details

我们使用英语无大小写的BERT-Base模型,该模型具有12层,768个隐藏状态和12个头。 BERT在BooksCorpus(8亿字)(Zhu等人,2015)和English Wikipedia(25亿字)上接受了预训练。为了进行微调,所有超参数都在开发集上进行了微调。最大长度为50。批量大小为128。Adam(Kingma和Ba,2014)用于优化,初始学习率为5e-5。辍学概率为0.1。最大轮数选自[1、5、10、20、30、40]。

5.3 Results

表2显示了Snips和ATIS数据集的模型性能,如槽位填充F1,意图分类精度和句子级语义框架精度。

第一组模型是基线,它由最新的联合意图分类和空位填充模型组成:使用BiLSTM的基于序列的联合模型(Hakkani-Tür et al. 2016),基于注意力的(Liu and Lane,2016)和槽门控模型(Goo et al. 2018)。

第二组模型包括提出的联合BERT模型。从表2中可以看出,联合BERT模型在两个数据集上的性能均明显优于基线模型。在Snips上,联合BERT的意图分类准确度达到98.6%(原为97.0%),插槽填充F1为97.0%(原为88.8%)和句子级语义框架准确度为92.8%(原为75.5%)。在ATIS上,联合BERT的意图分类准确度达到了97.5%(原为94.1%),槽位填充F1为96.1%(原为95.2%)以及句子级语义帧准确度为88.2%(原为82.6%)。联合BERT + CRF用CRF取代了softmax分类器,它的性能与BERT相当,这可能是由于Translator中的自注意机制所致,该机制可能已经对标签结构进行了充分建模。

与ATIS相比,Snips包含多个域,并且词汇量更大。对于更复杂的Snips数据集,联合BERT在句子级语义框架准确性上获得了很大的提高,从75.5%到92.8%(相对值为22.9%)。这表明联合BERT模型具有很强的泛化能力,考虑到它是对来自不匹配的域和类型(书籍和维基百科)的大规模文本进行预训练的。在ATIS上,联合BERT的句子级语义框架准确性也得到了显着提高,从82.6%提高到88.2%(相对为6.8%)。

5.4 Ablation Analysis and Case Study(消融分析与案例研究)

我们对Snip进行了消融分析,如表3所示,在没有联合学习的情况下,意图分类的准确率从98.6%下降到98.0%,缝隙填充F1下降到95.8%(从97.0%)。我们还比较了不同微调时期的联合BERT模型。仅用1个轮次微调的联合BERT模型已经胜过表2中的第一组模型。

我们进一步从Snips中选择一个案例,如表4所示,该案例通过利用BERT的语言表示能力来提高泛化能力,显示联合BERT如何胜过时隙门控模型(Goo et al. 2018)。在这种情况下,时隙门控模型错误地预测了“mother joan of the angels”作为对象名称,并且意图也是错误的。但是,联合BERT可以正确预测插槽标签和意图,因为“mother joan of the angels”是维基百科中的电影条目。 BERT模型已在Wikipedia上进行了部分训练,并且有可能通过此稀有短语学习了此信息。

未来的工作包括对其他大规模和更复杂的NLU数据集上所提出的方法进行评估,并探索将外部知识与BERT结合的功效。

6. 重点论文

7. 代码编写

# 后续追加代码分析

参考文献

  1. Chen, Q., Zhuo, Z., & Wang, W. (2019, February 28). BERT for Joint Intent Classification and Slot Filling. arXiv.org.
上一篇 下一篇

猜你喜欢

热点阅读