《Named Entity Recognition with B

2018-10-31 本文已影响0人 best___me

Collobert等提出一个有效的神经网络模型，只需要little feature engineering而不是在大量的unlabelled text中训练word embeddings。无监督的训练word embeddings(Collober，Mikolov等)

但是这些模型有缺点：1. 使用简单的前向神经网络，使用固定大小的窗口获取每个词的上下文，会丢弃掉单词之间长距离的关系。2. 只依赖word embeddings，不能开发字符一级的影响，例如前缀和后缀.

使用LSTM做NER，计算能力的有限并且受到word embedding质量的限制。 CNN可以获取字符级别的特征。

本文最大的contribution就是使用双向LSTM和CNNs

模型：

1. Sequence-labelling with BiLSTM

2. 使用CNN提取字符特征

主要特征： word embeddings + character embeddings

其他word级别的特征：1. 大写 2. lexicons 词典

训练：最大化句子级别的对数似然， maximize the sentence level log-likelihood。

定义了tag-transition矩阵，Ai,j表示从tag i转移到tag j的分数。 A0,i是从tag i开始的分数。这个矩阵是经过学习。

整个句子的分数是tags的分数和转移矩阵分数的总和：