子词结构辅助机器翻译《Subword Regularizatio
2019-07-29 本文已影响5人
布口袋_天晴了
论文
未提供代码
一、简介
又是一篇关于多语言机器翻译的论文,文中作者认为子词结构有助于翻译。如下图:英语句子"Hello World"可以由多种子词结构序列进行表示。
二、模型
机器翻译通常会给出一个句对,需要翻译的句子X,以及翻译后的标注答案句子Y。<X,Y>。向上图那样,句子X可以被切分成很多序列,则X的字符串划分序列集合表示为,同样,目标答案句子Y也可以被切分成很多序列,Y的字符串划分序列集合表示为。
注:此处的字串的划分相对于空格的划分,会使同一个句子序列的表示多样化,即有很多种序列都可以表示同一个句子,如上图所示。
上式子是翻译模型的概率公式,在输入序列为x的前提下,预测下一个子词的概率,为序列的联合概率,其中是模型的参数。这个模型序列预测模型,可以选用RNN(循环时间网络)结构,或者其他非RNN模型也可。
三、目标函数
翻译模型的目标函数,一直都是平行语料的最大化对数似然函数。
平行语料用公式表达为:
句对,变为子字符串序列对。
模型的最大化对数似然函数公式:
其中k表示从序列集合x、y中限制的序列采样数。x、y子字符串序列集合会有多种多样的序列,其数目>>k,所以模型训练的时候,各从x,y中取出k个序列来训练模型。