顶会优质论文解读

子词结构辅助机器翻译《Subword Regularizatio

2019-07-29  本文已影响5人  布口袋_天晴了

论文
未提供代码

一、简介

又是一篇关于多语言机器翻译的论文,文中作者认为子词结构有助于翻译。如下图:

英语句子"Hello World"可以由多种子词结构序列进行表示。

二、模型

机器翻译通常会给出一个句对,需要翻译的句子X,以及翻译后的标注答案句子Y。<X,Y>。向上图那样,句子X可以被切分成很多序列,则X的字符串划分序列集合表示为x=(x_{1},...,x_{M}),同样,目标答案句子Y也可以被切分成很多序列,Y的字符串划分序列集合表示为y=(y_{1},...,y_{N})
注:此处的字串的划分相对于空格的划分,会使同一个句子序列的表示多样化,即有很多种序列都可以表示同一个句子,如上图所示。


上式子是翻译模型的概率公式,在输入序列为x的前提下,预测下一个子词的概率,为序列的联合概率,其中是模型的参数。这个模型序列预测模型,可以选用RNN(循环时间网络)结构,或者其他非RNN模型也可。

三、目标函数

翻译模型的目标函数,一直都是平行语料的最大化对数似然函数。
平行语料用公式表达为:
D=\left \{ <X^{s},Y^{s}> \right \}_{s=1}^{|D|}=\left \{ <x^{s},y^{s}> \right \}_{s=1}^{D}
句对,变为子字符串序列对。
模型的最大化对数似然函数公式:



其中k表示从序列集合x、y中限制的序列采样数。x、y子字符串序列集合会有多种多样的序列,其数目>>k,所以模型训练的时候,各从x,y中取出k个序列来训练模型。

四、解码翻译分数

其中,是y句子的子字符串序列的长度,是用来平衡短句子的正实数参数。

五、实验结果


上一篇下一篇

猜你喜欢

热点阅读