前缀树 elasticsearch

2019-10-09  本文已影响0人  云彩修建站站长

前缀树

我们使用搜索引擎时,当输入一个字的时候,搜索栏的下拉页面会出现相同前缀的推荐词:


tries.png

使用的这样一种工具叫做前缀树,它具有如下特征:

  1. 根节点不保存数值。
  2. 从根节点到叶节点所有值拼接起来构成了一个字符串。
  3. 每个节点的子节点包含的值都不相同。

elasticsearch简介

搜索引擎的三大步骤:

  1. 爬取内容
  2. 进行分词
  3. 建立反向索引

elasticsearch里面的专有名词

  1. 索引:类似mysql的一个数据库
  2. 类型:可以用来定义数据结构,类似mysql中的一张表
  3. 文档:类似mysql中的数据,可以理解为一条数据。存储的数据,字段可以定义为KEYWORD,也可以定义为CONTEXT。其中KEYWORD的字段直接建立倒排索引,CONTEXT要先进行分词,再建立倒排索引。

elasticsearch其他特性

  1. elasticsearch在lucence的基础上进行封装,实现分布式搜索引擎
  2. es也是master-slave架构,实现了数据的分片和备份。
  3. es的典型应用是elk日志分析系统。其中e指的是es,l指的是日志,k指的是展示。

es查询

如果有1w首诗,那么会建立一个索引,一个类型poem,然后对所有的数据共建一个倒排索引,比如有一个词“明月”,就可以查出来所有对应的诗。

对于倒排索引准确的机理,还是不太清楚。

上一篇 下一篇

猜你喜欢

热点阅读