全文检索

2020-05-04  本文已影响0人  lsh的学习笔记

概述

Full-Text Search 是将存储于数据库中的整本书整篇文章中的任意内容信息查找出来的技术。

倒排索引

全文索引通常使用倒排索引(inverted index)来实现。

在辅助表(auxiliary Table)存储单词与单词自身在一个或多个文档中所在位置之间的映射。通常利用关联数组实现,拥有2种表现形式:

  1. inverted index:表现形式为{单词,单词所在文档的ID}
  2. full inverted index:表现形式为{单词,(单词所在文档的ID,在具体文档中的位置)}

full inverted index 占用更多空间,但能更好定位数据,并扩充一些其他的搜索特性。

InnoDB的全文检索

采用full inverted index 方式。将(DocumentId,Position)视为一个“ilist”。全文检索表中有2个列,一个是word字段,另一个是ilist字段,并在word字段设有索引。在ilist字段存放了Position信息,可进行Proximity Search。

上一篇下一篇

猜你喜欢

热点阅读