java全栈

ElasticSearch 中文分词器对比

2021-02-28  本文已影响0人  阳关彩虹小白马

常用的中文分词器

对以上分词器进行了一个粗略对比:

分词器 优势 劣势
Smart Chinese Analysis 官方插件 中文分词效果惨不忍睹
IK Analyzer 简单易用,支持自定义词典和远程词典 词库需要自行维护,不支持词性识别
结巴分词 新词识别功能 不支持词性识别
Ansj中文分词 分词精准度不错,支持词性识别 对标hanlp词库略少,学习成本高
Hanlp 目前词库最完善,支持的特性非常多 需要更优的分词效果,学习成本高

截止到目前为止,他们的分词准确性从高到低依次是:

hanlp > ansj > 结巴 > IK > Smart Chinese Analysis

结合准确性来看,选用中文分词器基于以下考虑:


IK Analyzer

截止目前,IK分词器插件的优势是支持自定义热更新远程词典。
IK分词器的github地址:

https://github.com/medcl/elasticsearch-analysis-ik


hanlp 中文分词器

hanlp中文分词器的官网为:

https://www.hanlp.com/

hanlp中文分词器的github地址为:

https://github.com/hankcs/HanLP

上一篇下一篇

猜你喜欢

热点阅读