全文检索Lucene

2019-10-17  本文已影响0人  磨陀货_

首先我们要认识一下现在生活中主要的搜索有四种





各式各样的搜索 每一种搜索方式所用到的技术也是不一样的


什么是全文检索

    官网一点的说法就是从全文数据中进行检索就叫做全文检索(全名搜索)。是基于文本的搜索
    通俗一点的话就是百度搜索,百度就是用的全文检索


全文数据搜索方式

1.顺序扫描法 相对慢 添加索引之后会快一点
2.全文检索 相对就很快
    从非结构化数据中提取出的然后重新组织的信息,就称之为“索引”。即为文本数据建立类似“字典目录”,从而提高检索速度


全文检索的核心

创建索引
搜索索引


全文搜索的特点

 1.快的很
 2.相关度最高的排在最前面
 3.对摘要进行截取
 4.关键字高亮显示
 5.只关注文本,不考虑语义


全文检索的使用场景

 1.可替换数据库模糊查询,提高查询速度
 2.全文索引是搜索引擎的基础
 3.只对“指定领域”的网站进行索引与搜索(即垂直搜索
 4.在word、pdf等各种各样的数据格式中检索内容 比如:ctrl+F
 5.其他场合:比如搜狗拼音输入法 、QQ输入法等


全文检索应用架构

①采集数据    ②用户查询    ③创建索引返回客户

Lucene

   Apache Lucene 是一个用Java写的高性能、可伸缩的全文检索引擎工具包。它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。Lucene的目标是为各种中小型应用程序加入全文检索功能。ElatisSearch(处理分布式)
  Lucene的核心作者:Doug Cutting是一位资深全文索引/检索专家

上一篇 下一篇

猜你喜欢

热点阅读