机器学习100天论文阅读Machine Learning & Recommendation & NLP & DL

Pytorch学习记录-使用统计和先验知识的基于CRF+BiLS

2019-05-08  本文已影响1人  我的昵称违规了

Pytorch学习记录-GEC语法纠错04
五月第一周要结束了,接下来的三个月主要是文献阅读,准备8、9月的开题报告,技术类的文献集中在GEC和Text maching的应用方面,读完之后找demo复现,然后应用。
理论方面的论文也都是英文的

3. Chinese Grammatical Error Diagnosis using Statistical and Prior Knowledge driven Features with Probabilistic Ensemble Enhancement

这一篇是基于2017年的模型基础上优化,使用NLPTea-2018 shared Task,目的是定位语法错误以及错误类型。

3.1 摘要

3.2 介绍

基于深度学习的模型由于其在捕捉特征方面的优势被广泛运用,尤其是在大规模数据挖掘。
在这篇论文中描述了如何将来自大规模文本数据和手工启发知识进行整合;不同的集合策略。

3.3 CGED

2018年的shared task目标是开发新的NLP技术用于自动诊断中文句子中的语法错误。
错误类别主要包括四类错误,要求发现错误并准确定位。使用混淆矩阵(confusion matrix)对模型进行评估。用的还是TP、FP、TN、FN的标准。

3.4 方法

3.4.1 BiLSTM-CRF

构建的基于BiLSTM-CRF模型能够通过通过BiLSTM模型获取前后信息,通过CRF层连接来自BiLSTM的连续输出层,更好地解决序列标记问题。这个模型包含有两个潜力:emission and transition潜力。

因此,可以定义由CRF层计算的条件概率,以支持上面说明的预测分数
P(Y|X)=\frac{exp(Score(X,Y))}{\Sigma_{Y'\in Y_X} exp(Score(X,Y'))}

其中Y_X对应输入句子X中所有可能的tag。训练过程使上面计算的条件概率的对数概率最大化到正确的标签序列上。
log(P(Y|X))=s(X,Y)-\log(\Sigma_{Y'\in Y_X} exp(Score(X,Y')))

image.png
整个转发过程的流程图。基于特征的输入首先通过经过训练的单个模型进行处理,其单个模型的LSTM输出在通过CRF层生成标记之前进行加权。使用我们的新方法合并和后处理CRF输出,产生期望的预测。
整个训练数据被分成若干batch,其单位在每个时期逐个处理。每批包含一系列句子或序列形式。

3.4.2 新功能

这个模型很依赖先验知识,研究者在2017年的六个特征工程上又增加了三个特征。

3.4.3 集成机制

在2017年三个集成机制的基础上又增加了基于概率的集成方法和基于输出排名的集成

3.4.4 选择模型

因为每个优化组合包含有10个参数和24个不同的manual seed,最后得到的模型远多于2017年8个模型,这次训练了240个基于SGD(随即梯度下降)和240个基于Adam的模型。论文选取了40个最好的。接下来,分别在4组模型,5模型和6模型组合设置上对每组模型应用概率-集合方法;对于每个设置,我们尝试了数百种组合,最后我们获得了每个优化器组的120个最佳概率 - 集合模型组(pEMG)。我们对每个pEMG进行排列,以找出具有合并方法的三组IEMG。
看着好麻烦啊……

3.5 后期处理

3.6 错误纠正

基于PMI的方式和使用Seq2Seq的Attention机制

上一篇 下一篇

猜你喜欢

热点阅读