中文分词与命名实体

2021-03-29  本文已影响0人  杨伟锋poplar

【2020年11月分享】

背景介绍

  1. 计算机、互联网服务越来越多的改变着人们的生活;
  2. 信息时代,信息消费需求的数量越来越大,精度越来越高;
  3. 信息的采集、加工、传递等技术提升需求迫切;
  4. 信息大多以文字形式体现,文字处理,英文具有天然优势和既有技术领先优势,中文处理因为汉字语言的特殊性并没有外文那样简单,还存在很多的挑战。

中文信息处理是自然语言信息处理的一个分支,具体内容包括对字、词、句、篇章的分析、理解和生成等方面的技术。而中文分词和实体识别则是中文信息处理的基础和最常用的技术,本文重点是对一些基本感念做以介绍。

中文分词

把中文的汉字序列切分为有意义的词序列。

命名实体

文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。

中文分词准确率问题

命名实体的识别难点

中文信息技术体系

image

分词效果示例

image
                                                  .END.
上一篇下一篇

猜你喜欢

热点阅读