分词

2019-04-10 本文已影响0人小眼睛的露鹿酱

分词背后的技术

现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于目前就是基于规则，理解和统计的分词方法。

基于词典匹配方法：字符串匹配以及机械分词等

- 正向最大匹配：从左到右，从最大词到最小，第一个到最后一个
- 邻近匹配算法
- 逆向最大匹配算法：优于正向
- 双向最大匹配算法：正反匹配后取重合
- 最短路径匹配算法：构成图，找最短路径
  太依赖辞典，太慢

基于规则方法（基于语义）
大文本中相邻词共同出现的次数决定了词之间的可信度，当高于一定的频率时就能构成一个词。

- N-gram: 第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。
- 隐马尔可夫

基于统计的方法（不需要依赖字
典）

N-gram模型
隐马尔可夫模型（原文）
神经网络
专家系统分词

分词工具一览表

参考知乎上的一篇文章史上最全中文分词工具整理
目前的分词工具都支持：java python c++
常用的有：

HanLP 文档里面包含基本的中文分析应用，还有word2vec，简体繁体转换等
jieba分词有多个语言版本，包含java python php等
LTP 哈工大推出的语言技术平台, C++版本的已经完善， java版本的还在进行中
THULAC 清华大写推出的中文语法分析工具包，目前只有分词和词性分析。包含java c++ python
NLPIR 中科院的工具， java的，里面包含分词，标注识别分析等
BosonNLP 商业支持rest 免费调用很好的
百度阿里腾讯都有，并支持rest调用
国外的： NLTK， stanfordNLP

上一篇下一篇

猜你喜欢

热点阅读