再次学习ES--11--6.4Anlysis

2018-12-10  本文已影响0人  lionel880

ayalysis以往对于我来说是个黑盒,并不清楚ES这个重要组件到底是如何进行分析的。属于知道个大概,但一深入就很模糊的状态。

概述

一种Analyzer -内置或自定义是否-仅仅是包含三个低级别构建块包:character filters(字符过滤器), tokenizers(分词器)和token filters(令牌过滤器)

分析器可以具有零个或多个 令牌过滤器,这些过滤器按顺序应用。

测试 analyzer

POST _analyze
{
  "tokenizer": "standard",
  "filter":  [ "lowercase" ],
  "text":      "test analyze ok"
}

结果为

"tokend":[
  {
      "token":"test",
      "start_offset":0,
      "end_offset":4,
      "type":"<ALPHANUM>",
      "position":0
  }
...
]

可以看到,解析后,结果包含了 token,原文本起始和结束位置,解析后的相对位置

上一篇 下一篇

猜你喜欢

热点阅读