Elasticsearch安装分词插件

2024-08-11  本文已影响0人  轻轻敲醒沉睡的心灵

前面我们已经说了,elasticsearch要想实现准确点的检索,就需要分词精确。elasticsearch本身自带的分词器对中文的支持不太友好,所以才会出现我们上次试验的结果,搜索李白会出现白居易

1. 自带分词插件的分词效果

李白

可以看出,这个自带分词器傻瓜式的拆成1个个。它不认识“雷布斯”,它只认识“雷”、“布”、“斯”。

2. 安装分词器

2.1 ik分词器

中文分词器一般用ik分词器
ik分词器的下载地址。下载和Elasticsearch版本对应的。如果不能下了,可以去github看一下,是不是地址换了。
下载完成以后,将文件上传到我们上次docker映射的plugins目录中。
注意:3个节点都要上传并处理

# 解压到ik目录
cd /opt/soft/elasticsearch/es01/plugins
unzip elasticsearch-analysis-ik-8.14.3.zip -d ik
# 删除压缩包
rm elasticsearch-analysis-ik-8.14.3.zip
2.2 拼音分词器

还有一个拼音分词器,pinyin分词器把输入的汉字拆分成了单个拼音、拼音组合、拼音缩写。
下载地址,和ik是一个作者出的,参照ik步骤安装到plugins目录下。

安装完2个分词器以后,重启3个节点。进容器可以在命令行查看:


分词器

3. 简单使用效果

IK 分词器有两种模式:ik_max_wordik_smart

感觉ik_max_word给出的结果中,有更多符合心意的。当然词条多了,倒排索引列表就大,所需硬件资源就更多。根据实际情况选择。

我们看一下拼音分词器的:


pinyin

感觉效果并不是太好。

上一篇 下一篇

猜你喜欢

热点阅读