Python

全文检索

2016-06-07  本文已影响31人  一曲广陵散

概念

从文本或者数据库中,不限定资料字段,自由地萃取出讯息的技术 执行全文检索任务的程式,一般称作搜索引擎, 将使用者随意输入的文字,试图从数据库中,找到符合的内容

相关议题

stemming 语根处理 token parser 符素解析器 word segmentation 断词/分词 inverted index 反向索引

和中文有关的议题:断词,语法解析,古籍议题,多语言混合

算法,搜寻策略的模型

布林式 boolean

统计模型  probabilistic model

向量空间模型 vector base model

隐性语义模型 latent semantic model

开源的全文检索系统

apache solr, BaseX, clusterpoint Server

DataparkSearch,Ferret,Ht-//Dig

Hyper Estraier, KinoSearch

Lemur/Indri  Lucene mnoGoSearch

Sphinx,Swish-e,Xapian,ElasticSearch

优化

stopwords 剔除字 词性标注 authority file 权威档 知识体系,本体论ontology 超链接分析技术page rank

历史和未来发展趋势

自由语句搜寻

引用
全文检索

上一篇 下一篇

猜你喜欢

热点阅读