子词结构辅助机器翻译《Subword Regularizatio

2019-07-29 本文已影响5人布口袋_天晴了

论文
未提供代码

一、简介

又是一篇关于多语言机器翻译的论文，文中作者认为子词结构有助于翻译。如下图：

英语句子"Hello World"可以由多种子词结构序列进行表示。

二、模型

机器翻译通常会给出一个句对，需要翻译的句子X，以及翻译后的标注答案句子Y。<X，Y>。向上图那样，句子X可以被切分成很多序列，则X的字符串划分序列集合表示为 $x=(x_{1},...,x_{M})$ ，同样，目标答案句子Y也可以被切分成很多序列，Y的字符串划分序列集合表示为 $y=(y_{1},...,y_{N})$ 。
注：此处的字串的划分相对于空格的划分，会使同一个句子序列的表示多样化，即有很多种序列都可以表示同一个句子，如上图所示。

上式子是翻译模型的概率公式，在输入序列为x的前提下，预测下一个子词的概率，为序列的联合概率，其中是模型的参数。这个模型序列预测模型，可以选用RNN(循环时间网络)结构，或者其他非RNN模型也可。

三、目标函数

翻译模型的目标函数，一直都是平行语料的最大化对数似然函数。
平行语料用公式表达为：
$D=\left \{ <X^{s},Y^{s}> \right \}_{s=1}^{|D|}=\left \{ <x^{s},y^{s}> \right \}_{s=1}^{D}$
句对，变为子字符串序列对。
模型的最大化对数似然函数公式：

其中k表示从序列集合x、y中限制的序列采样数。x、y子字符串序列集合会有多种多样的序列，其数目>>k，所以模型训练的时候，各从x，y中取出k个序列来训练模型。

四、解码翻译分数

其中，是y句子的子字符串序列的长度，是用来平衡短句子的正实数参数。

子词结构辅助机器翻译《Subword Regularizatio

一、简介

二、模型

三、目标函数

四、解码翻译分数

五、实验结果

猜你喜欢

热点阅读