论文模型阅读“Correcting Chinese Spelli

2022-03-07  本文已影响0人  掉了西红柿皮_Kee

Zhang R, Pang C, Zhang C, et al. Correcting Chinese spelling errors with phonetic pre-training[C]//Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. 2021: 2250-2261.

摘要翻译

中文拼写纠正(CSC)是一项非常重要且具有挑战的任务。在本论文中,作者提出了一个新的端到端CSC模型,该模型利用强大的预训练和微调方法将音标特征整合到语言模型中。不同于训练语言模型中使用一个特定的token进行mask,作者将要被mask的词用音标特征和对应的同音词代替。更进一步的,提出了一个统一的框架,使用自适应权重的目标对错误检测和纠正进行联合训练。实验证明该模型是有效的。

模型浅析

一般情况下,中文拼写检查任务是将一个可能包含拼写错误的序列x_w=(x_{w_1},x_{w_2},...,x_{w_N})映射到另一个正确的序列\hat{y}=(\hat{y_1},\hat{y_2},...,\hat{y_N}),其中x_{w_i}\hat{y_i}(1<i<N)都是中文字符。
该论文中提出的端到端CSC模型由检测和纠正两个模块组成。检测模块以x_w为输入,预测每个字符拼写错误的概率。纠正模块将x_w和其对应的拼音序列x_p=(x_{p_1},x_{p_1},...,x_{p_N})的嵌入表示作为输入预测正确的序列y。我们使用拼写错误的概率作为权重,来融合x_wx_p的嵌入表示。
和预训练和微调框架一致,作者首先预训练了一个语音的MLM模型,从简单的发音和拼音中学习预测字符。在微调阶段,联合优化检测和纠正模块。
这里我们主要关注CSC模型的各模块,以及整个模型是如何联合训练的。完整的模型图如下所示:

特别的,纠正损失是一个负对数似然并且由检测结果进行权重化,且仅考虑检测结果中大于0.5的部分:


当检测模块给出了一个低置信预测,即接近0.5,则e_m由语义和语音两个嵌入表示等比融合而成。实际上,我们希望检测模块可以提供一个明确的对错信息,这样e_m可以主要由语义或语音其中之一决定。因此,我们将对检测模块的低置信预测进行惩罚:即,当检测模块的置信度较低时,L_c降低,使得模型强制优化L_d。当检测置信较高时,二者同时进行优化。总体的损失函数可以如下表示:

以概率的方式对纠正模块进行权重化,想法很新颖。同时利用了前一模块的输出结果,使得两个模块联合学习。真的强!

上一篇 下一篇

猜你喜欢

热点阅读