知识图谱学习笔记(五)——实体识别(1)

2019-12-24  本文已影响0人  aidanmomo

实体识别(信息抽取)

1. 信息抽取概述

2. 信息抽取的基础:分词和词性标注

2.1中文分词

2.2词性标注

2.3中文分词的难点:

2.4中文分词结果的评价:

2.5基于字典的分词方法

2.6基于统计的分词方法

基于统计的方法需要标注训练语料训练模型,可分为生成式统计分词和判别式统计分词

2.6.1 生成式方法

原理:首先建立学习样本的生成模型,再利用模型对预测结果进行间接推理。

马尔可夫模型
存在一类重要的随机过程(马尔可夫过程):如果一个系统有N个状态S_1, S_2, ..., S_N,随着时间的推移,该系统从某一个状态转移到另一状态。如果用q_t表示系统在时间t的状态变量,那么t时刻的状态取值为S_j (1<=j<=N)的概率取决于前t-1个时刻的状态,该状态的概率为:
P(q_t = S_j | q_{t-1} = S_i, q_{t-2} = S_k, ...)

上一篇下一篇

猜你喜欢

热点阅读