ElasticSearch tokenizer和filter的区

2019-07-07  本文已影响0人  秦汉邮侠

背景

区别

例如,假设输入是The quick brown fox。如果您使用edgeNGram 分词器,将获得以下分词:

T
Th
The
The (最后一个字符是一个空格)
The q
The qu
The qui
The quic
The quick
The quick (最后一个字符是一个空格)
The quick b
The quick br
The quick bro
The quick brow
The quick brown
The quick brown (最后一个字符是一个空格)
The quick brown f
The quick brown fo
The quick brown fox

但是,如果使用standard分词器将输入拆分为分词,然后使用edgeNGram 过滤器,将获得以下分词

T,Th,The
q,qu,qui,quic,quick
b,br,bro,brow,brown
f,fo,fox

在edgeNgram 标记器或标记过滤器之间进行选择,取决于你希望如何对文本进行切分及如何搜索

参考来源

上一篇下一篇

猜你喜欢

热点阅读