信息检索复习(2)——词项词典及倒排记录表

2018-06-26  本文已影响0人  Eylen

构建倒排索引步骤

  1. 收集待建索引的文档(Document)
  2. 对这些文档中的文本进行词条化(Tokenizer)
  3. 对第2步产生的词条(Token)进行语言学预处理(去除停用词、词项归一化、词干还原和词形归并),得到词项(Term)
  4. 根据词项对所有文档建立索引

词条化


停用词


词项归一化


词干还原和词形归并


基于跳表的倒排记录表快速合并算法

带有跳表指针的倒排记录表

位置信息索引

上一篇下一篇

猜你喜欢

热点阅读