论文-Encoder-decoder with focus-me

2019-12-24  本文已影响0人  魏鹏飞

1.简称

论文《Encoder-decoder with focus-mechanism for sequence labelling based spoken language understanding》简称BLSTM-LSTM (focus),作者:Su Zhu and Kai Yu(Key Laboratory of Shanghai Education Commission for Intelligent Interaction and Cognitive Engineering),经典的SLU论文(Semantic Frame)

2. 摘要

本文研究了编码器-解码器的框架,并着重于基于序列标签的口语理解。

我们引入双向长短期记忆-长短期记忆网络(BLSTM-LSTM)作为编码器-解码器模型,以充分利用深度学习的力量。在序列标记任务中,输入和输出序列是逐字对齐的,而注意机制无法提供准确的对齐方式。为了解决这个限制,我们为编码器-解码器框架提出了一种新颖的聚焦机制。

在标准ATIS数据集上进行的实验表明,具有聚焦机制的BLSTM-LSTM优于标准的BLSTM和基于注意力的编码器-解码器,从而定义了最新技术。进一步的实验还表明,所提出的模型对语音识别错误具有更强的鲁棒性。

3. 引言

在口语对话系统中,口语理解(SLU)是将用户话语解析为相应语义概念的关键组成部分。序列标记中输入话语的语义解析通常包括三个任务:域检测意图确定时隙填充。在本文中,我们专注于基于序列标记的时隙填充任务,该任务为句子中的每个单词分配一个语义时隙标签。 SLU的主要挑战是性能改进及其对ASR错误的鲁棒性。

插槽填充是SLU获得语义插槽及其关联值的主要任务。通常,将时隙填充视为序列标签(SL)问题,以预测发声中每个单词的空位标签。作为一个典型的对齐任务,图1中显示了一个时隙填充的示例。目标是将单词“Boston”标记为出发城市,将“New York”标记为到达城市,并将“today”标记为日期。

解决此问题的标准方法包括生成模型,例如HMM / CFG复合模型隐藏矢量状态(HVS)模型和判别式或条件模型,例如条件随机场(CRF)。 ,以及支持向量机(SVM)。最近,由于许多非常成功的连续空间,神经网络和深度学习方法的推动,许多神经网络体系结构已应用于此任务,例如简单的递归神经网络(RNN),卷积神经网络(CNN),长期短期记忆(LSTM)以及不同训练准则的变化。最新的论文使用基于LSTM的序列模型的变体,包括编码器-解码器,外部存储器。

受注意力机制在自然语言处理(NLP)领域成功的启发,我们首先应用了基于注意力的编码器-解码器,将基于序列标记的SLU视为语言翻译问题。为了考虑以前和将来的信息,我们使用双向LSTM(BLSTM)对编码器进行建模,并使用单向LSTM对解码器进行建模。注意机制采用位置A周围的输入与位置B处的输出之间的匹配所提供的得分的加权平均值。序列标记任务中注意模型的主要限制有两个:

为了解决注意力机制在序列标记中的局限性,我们提出了聚焦机制,该机制强调了对齐的编码器的隐藏状态。

4. 核心

通过考虑过去的输入,单向LSTM无法解决未来输入的长距离依赖性。 BLSTM通过两个单向LSTM解决了这一缺点:处理原始输入字序列的前向传递;向后传递处理反向输入字序列。为了了解这些模型的优势,我们将介绍基于BLSTM-LSTM的编码器-解码器体系结构。

4.1 BLSTM-LSTM + Attention

我们遵循基于RNN的编码器/解码器。为了同时考虑以前的历史和未来的历史,我们将BLSTM用作编码器,将LSTM用作解码器。

编码器-解码器的重要扩展是添加一种注意力机制。我们采用了注意力模型。唯一的区别是我们预先使用BLSTM作为编码器。编码器通过BLSTM读入一个输入序列x=(x_1,x_2,...,x_{T_x})并且生成T_x隐藏状态。

双向隐藏状态输出

给定所有输入词和所有先前预测的语义标签{y_1,...,y_{t-1}},对解码器进行训练以预测下一个语义标签y_t

带有注意力机制的解码器

其中g表示输出层(通常带有softmax),s_t是解码器LSTM在时间t的隐藏状态,其中f_d设置为LSTM单位函数。 c_t表示用于根据不同的编码器隐藏状态生成标签y_t的上下文信息,通常由注意力机制实现:

注意力计算方法

为了将该模型应用于序列标记任务,我们强制解码器生成的输出序列获得与输入字序列相同的长度。

4.2 Focus mechanism(聚焦机制)

如引言中所述,注意力机制在基于序列标记的SLU任务中面临两个限制。为了解决这些问题,我们提出了仅考虑对齐的编码器隐藏状态的聚焦机制,即:\begin{cases} α_{ti}= 0, & \mbox{if }t \neq\mbox{i} \\ α_{ti}= 1, & \mbox{if }t=\mbox{i} \\ \end{cases}

则:c_t=h_t

因此,没有必要通过利用注意力模型来学习对齐方式。具有注意和聚焦机制的编码器-解码器如图2所示。

5. 实验

5.1 Experimental Setup

我们使用ATIS语料库,该语料库已被SLU社区广泛用作基准。在ATIS中,句子及其语义位置标签以流行的输入/输出/开始(IOB)表示形式。图1中提供了一个示例句子。训练数据包含4978个句子和56590个单词。测试数据包括893个句子和9198个单词。我们随机选择了训练数据的80%用于模型训练,其余20%用于验证。

除了ATIS,我们还将模型应用于汽车导航领域的自定义中文数据集,该数据集包含用于训练的8000条话语,用于验证的2000条话语和用于测试的1944条话语。已使用IOB模式为每个单词手动分配了一个插槽。不仅要评估句子,还要评估自动语音识别(ASR)所产生的每个发音的最高假设。这些ASR顶部输出的单词错误率(WER)为4.75%,句子错误率(SER)为23.42%。

我们报告测试集上的F1分数,并使用在验证数据上获得最佳F分数的参数。我们交易
与由只用一个在训练组中为单次出现的标记的任何词语的测试集<unk >。

我们实现的LSTM神经网络。如前所述,编码器-解码器模型使用BLSTM进行编码,使用LSTM进行解码。为了进行训练,网络参数根据均匀分布(-0.2,0.2)随机初始化。我们将随机梯度下降(SGD)用于更新参数。为了增强我们提出的模型的泛化能力,我们在训练阶段以0.5的概率应用了dropout

对于编码器/解码器,根据经验,我们使用从左到右的beam search进行波束大小为2的解码。

我们尝试不同的学习率,范围从0.004到0.04,类似于网格搜索。我们将学习率保持了100个时期,并在验证集上保存了能够提供最佳性能的参数,该参数是在每个训练时期之后进行测量的。

5.2 Results on the ATIS Dataset

表1显示了ATIS数据集上的结果。对于所有架构,我们将词嵌入的维数设置为100,将隐藏单元的数量设置为100。我们仅将当前词用作输入,而没有任何上下文词。同时考虑过去和未来历史的BLSTM的表现优于LSTM(+ 2.03%)。基于注意力的BLSTM-LSTM模型的F1-得分低于BLSTM(-2.7%)。我们认为原因是序列标记问题是一项任务,其输入和输出序列对齐。

只有有限的数据,很难通过注意力机制准确地学习对齐。我们尝试通过将句子中每个特定位置的值随机替换为原始比例的10倍来扩展ATIS的训练数据。例如,“Flights from Boston”可以扩展为“Flights from New York”,“Flights from Los Angeles”等。受关注的BLSTM-LSTM的F1-得分达到95.19%,而其他方法则没有从中受益扩展训练集。

与在ATIS数据集上发布的结果相比,我们的方法优于表2中所示的先前发布的F1得分。表2总结了最近发布的关于ATIS插槽填充任务的结果,并将其与我们提出的方法的结果进行了比较。我们提出的模型达到了最先进的性能1,但在统计上并不显著。


5.3 Results on Chinese Navigation Dataset

为了研究具有注意力或聚焦机制的BLSTM-LSTM体系结构的鲁棒性,我们对实验设置中描述的中文导航数据集进行了额外的实验。对于神经网络架构,我们还将词嵌入的维数设置为100,将隐藏单元的数量设置为100。此外,与使用上下文窗口大小为5的CRF相比,仅将当前词用作LSTM输入。 我们在自然文本句子(没有任何语音识别错误)上训练模型,并不仅对手动转录(正确的文本句子)进行测试,而且还对语音识别系统的主要假设(包括识别错误)进行了测试。


表3显示结果。由于输出语句级别的优化,CRF基线似乎与BLSTM竞争。相比之下,LSTM不符合我们的期望。因为此数据集中的主要挑战是检测较长的短语,例如位置名称(长度从1到24个单词不等)。它遭受着对过去和未来输入的长期依赖。随后,BLSTM解决了这个问题。

具有聚焦机制的BLSTM-LSTM在自然句子和ASR的最高假设上均明显优于BLSTM(显着水平5%)。带有聚焦机制的BLSTM-LSTM编码器/解码器似乎对ASR错误更健壮。一个可能的原因是,标签依赖性解码器中的,有助于忽略编码器转换后的错误。 CRF还可以通过解析ASR输出来对标签依赖性进行建模,并优于BLSTM。

将来,我们想研究具有聚焦机制的BLSTM-LSTM来处理其他序列标记任务(例如,词性标记,命名实体识别)。

6. 重点论文

7. 代码编写

# 后续追加代码分析

参考文献

  1. Zhu, S., & 0004, K. Y. (2017). Encoder-decoder with focus-mechanism for sequence labelling based spoken language understanding. Icassp, 5675–5679.
上一篇 下一篇

猜你喜欢

热点阅读