分词

2019-04-10  本文已影响0人  小眼睛的露鹿酱

分词背后的技术

现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于目前就是基于规则,理解和统计的分词方法。

  1. 基于词典匹配方法:字符串匹配以及机械分词等
  1. 基于规则方法(基于语义)
    大文本中 相邻词共同出现的次数决定了词之间的可信度,当高于一定的频率时就能构成一个词。
  1. 基于统计的方法(不需要依赖字
    典)

分词工具一览表

参考知乎上的一篇文章史上最全中文分词工具整理
目前的分词工具都支持:java python c++
常用的有:

  1. HanLP 文档 里面包含基本的中文分析应用, 还有word2vec, 简体繁体转换等
  2. jieba分词 有多个语言版本,包含java python php等
  3. LTP 哈工大推出的语言技术平台, C++版本的已经完善, java版本的还在进行中
  4. THULAC 清华大写推出的中文语法分析工具包,目前只有分词和词性分析。包含java c++ python
  5. NLPIR 中科院的工具, java的, 里面包含分词, 标注 识别 分析等
  6. BosonNLP 商业 支持rest 免费调用 很好的
  7. 百度 阿里 腾讯都有, 并支持rest调用
  8. 国外的: NLTK, stanfordNLP
上一篇下一篇

猜你喜欢

热点阅读