机器学习100天论文阅读Machine Learning & Recommendation & NLP & DL

Pytorch学习记录-基于CRF+BiLSTM的CGED

2019-05-08  本文已影响5人  我的昵称违规了

Pytorch学习记录-GEC语法纠错03
五月第一周要结束了,接下来的三个月主要是文献阅读,准备8、9月的开题报告,技术类的文献集中在GEC和Text maching的应用方面,读完之后找demo复现,然后应用。
理论方面的论文也都是英文的

2. Alibaba at IJCNLP-2017 Task 1: Embedding Grammatical Features into LSTMs for Chinese Grammatical Error Diagnosis Task

2017年国际自然语言处理联合会议(IJCNLP 2017)中文语法纠错第一名。在这里,使用的是Chinese Grammatical Error Diagnosis(CGED中文语法错误诊断)

2.1 摘要

2.2 介绍

中文的特点(古老和多样化),既没有单数/复数变化,也没有动词的紧张变化,具有更灵活的表达但松散的结构语法,使用更短的句子但很少有短语。它也有更多的重复,而在英文中这种重复会被省略。
中-英文GED之间的相似之处:固定的词汇搭配,可以从英语NLP研究中获得经验。

2.3 CGED

image.png

2.4 相关工作

在CoNLL2013和2014年的shared Task中获得了很多关于英文GED的成果。

2.5 方法

2.5.1 模型

将CGED看成是一个序列标记问题,HIT之前使用过基于CRF和LSTM的模型解决序列标记问题,在CRF的帮助下,LSTM模型表现更好。因此,这篇论文使用的也是双向LSTM作为RNN单元对输入句子进行建模。

image.png

2.5.2 特征工程

由于缺乏训练数据,任务严重依赖先验知识:POS特征。即是说特征工程对于这类任务十分重要,研究者列出了他们使用的特征。

image.png

2.5.3 模型集成

由于随机初始化和随机丢失的原因,模型的结果不是很理想,研究者使用了3种不同的集成方式来提高结果。

在所有实验中,使用了4组不同的参数,并为每个参数组训练了2个模型,因此总共使用了8个模型。

上一篇 下一篇

猜你喜欢

热点阅读