Elasticsearch安装分词插件

2024-08-11 本文已影响0人轻轻敲醒沉睡的心灵

前面我们已经说了，elasticsearch要想实现准确点的检索，就需要分词精确。elasticsearch本身自带的分词器对中文的支持不太友好，所以才会出现我们上次试验的结果，搜索李白会出现白居易。

李白

诗

可以看出，这个自带分词器傻瓜式的拆成1个个。它不认识“雷布斯”，它只认识“雷”、“布”、“斯”。

中文分词器一般用ik分词器。
ik分词器的下载地址。下载和Elasticsearch版本对应的。如果不能下了，可以去github看一下，是不是地址换了。
下载完成以后，将文件上传到我们上次docker映射的plugins目录中。
注意：3个节点都要上传并处理。

# 解压到ik目录
cd /opt/soft/elasticsearch/es01/plugins
unzip elasticsearch-analysis-ik-8.14.3.zip -d ik
# 删除压缩包
rm elasticsearch-analysis-ik-8.14.3.zip

还有一个拼音分词器，pinyin分词器把输入的汉字拆分成了单个拼音、拼音组合、拼音缩写。
下载地址，和ik是一个作者出的，参照ik步骤安装到plugins目录下。

安装完2个分词器以后，重启3个节点。进容器可以在命令行查看：

分词器

IK 分词器有两种模式：ik_max_word和ik_smart。

感觉ik_max_word给出的结果中，有更多符合心意的。当然词条多了，倒排索引列表就大，所需硬件资源就更多。根据实际情况选择。

我们看一下拼音分词器的：

pinyin

感觉效果并不是太好。