Pytorch学习记录-使用统计和先验知识的基于CRF+BiLS

2019-05-08 本文已影响1人我的昵称违规了

Pytorch学习记录-GEC语法纠错04
五月第一周要结束了，接下来的三个月主要是文献阅读，准备8、9月的开题报告，技术类的文献集中在GEC和Text maching的应用方面，读完之后找demo复现，然后应用。
理论方面的论文也都是英文的

3. Chinese Grammatical Error Diagnosis using Statistical and Prior Knowledge driven Features with Probabilistic Ensemble Enhancement

这一篇是基于2017年的模型基础上优化，使用NLPTea-2018 shared Task，目的是定位语法错误以及错误类型。

3.1 摘要

任务：NLPTea-2018 shared Task，定位语法错误以及错误类型
模型结构：基于BiLSTM-CRF，整合一部分新特征
- 更加丰富的特征
- 采用概率集合方法
- 模板匹配器，在后处理期间用于引入人类知识

3.2 介绍

基于深度学习的模型由于其在捕捉特征方面的优势被广泛运用，尤其是在大规模数据挖掘。
在这篇论文中描述了如何将来自大规模文本数据和手工启发知识进行整合；不同的集合策略。

3.3 CGED

2018年的shared task目标是开发新的NLP技术用于自动诊断中文句子中的语法错误。
错误类别主要包括四类错误，要求发现错误并准确定位。使用混淆矩阵（confusion matrix）对模型进行评估。用的还是TP、FP、TN、FN的标准。

$FPR=FP/(FP+TN)$
$Accuracy=(TP+TN)/(TP+FP+TN+FN)$
$Precision=TP/(TP+FP)$
$Recall=TP/(TP+FN)$
$F_1=2*Precision*Recall/(Precision+Recall)$

3.4 方法

3.4.1 BiLSTM-CRF

构建的基于BiLSTM-CRF模型能够通过通过BiLSTM模型获取前后信息，通过CRF层连接来自BiLSTM的连续输出层，更好地解决序列标记问题。这个模型包含有两个潜力：emission and transition潜力。

emission潜力P：是由BiLSTM输出的矩阵数值，大小为n*k，k是不同标签的大小。这样 $P_{i,j}$ 表示的就是输入句子中第i个tag到第j个tag。
transition潜力A：是与tag之间的转换相对应的转换矩阵分数。例如， $A_{i,j}$ 表示从标签到标签的转换分数。
这样，一个句子的预测就可以定义为：
$s(X,Y)=\Sigma^n_{i=0}A_{y_{i},y_{i+1}}+\Sigma^n_{i=1}P_{i,y_i}$

因此，可以定义由CRF层计算的条件概率，以支持上面说明的预测分数
$P(Y|X)=\frac{exp(Score(X,Y))}{\Sigma_{Y'\in Y_X} exp(Score(X,Y'))}$

其中 $Y_X$ 对应输入句子X中所有可能的tag。训练过程使上面计算的条件概率的对数概率最大化到正确的标签序列上。
$log(P(Y|X))=s(X,Y)-\log(\Sigma_{Y'\in Y_X} exp(Score(X,Y')))$

image.png
整个转发过程的流程图。基于特征的输入首先通过经过训练的单个模型进行处理，其单个模型的LSTM输出在通过CRF层生成标记之前进行加权。使用我们的新方法合并和后处理CRF输出，产生期望的预测。
整个训练数据被分成若干batch，其单位在每个时期逐个处理。每批包含一系列句子或序列形式。

首先前向运行该模型以获得emission矩阵P，其包含每个标签与对应于每个输入词的每个位置之间的关系。
在学习阶段进行反向传播以及解码过程，更新包括转换矩阵A，Bi-LSTM权重和输入要素随机嵌入的网络参数。

3.4.2 新功能

这个模型很依赖先验知识，研究者在2017年的六个特征工程上又增加了三个特征。

分词，使用哈工大开发的LTP分词器对输入句子进行分词并对每个字符串标记为其相应的段（wordgram）和其位置指示符的组合。
高斯ePMI，应该是对2017年相邻词汇搭配PMI的发展，使用可训练的加权高斯分布来利用单词的距离
$GSeP(w_i,w_j)=\mu_{ij}N(j-i)\times ePMI(w_i,w_j;j-i)$
ePMI是用来计算词汇 $w_i$ 和 $w_j$ 的共现，这两个单词的间隔为j-i，我们使用由数百万学生论文组成的外部数据（阿里就是财大器粗啊）训练了六个GSeP矩阵，这些论文存储了距离变化的每个单词对的GSeP分数。对于目标词，我们将ePMI与相邻词一起计算并将它们映射到离散值内部作为特征。
POS和PMI整合，研究者的猜测是，单词之间的PMI得分效率与他们的POS确切地相关，不同POS对的PMI得分具有不同的含义，即使POS对具有相同的PMI得分。为了防止出现这种模棱两可的情况出现，研究者将 $POS(w_i)\_ POS(w_j)\_ PMI(w_i,w_j)$ 作为补充PMI特征处理。

3.4.3 集成机制

在2017年三个集成机制的基础上又增加了基于概率的集成方法和基于输出排名的集成

基于概率的集成方法，进行序列标注是对于每个模型的输出，加权求平均。随机初始化一个权重参数。
基于ranking的方法。通过实验发现使用Adam的优化方法的模型比使用SGD的优化方法在recall指标上表现比较好，但是直接merger adam 优化的模型，会使得p值较差。将每个Bi-LSTM+CRF模型得到的前40%结果保存下来。去掉后20%结果的模型。

3.4.4 选择模型

因为每个优化组合包含有10个参数和24个不同的manual seed，最后得到的模型远多于2017年8个模型，这次训练了240个基于SGD（随即梯度下降）和240个基于Adam的模型。论文选取了40个最好的。接下来，分别在4组模型，5模型和6模型组合设置上对每组模型应用概率-集合方法;对于每个设置，我们尝试了数百种组合，最后我们获得了每个优化器组的120个最佳概率 - 集合模型组（pEMG）。我们对每个pEMG进行排列，以找出具有合并方法的三组IEMG。
看着好麻烦啊……

3.5 后期处理

3.6 错误纠正

基于PMI的方式和使用Seq2Seq的Attention机制