信息检索导论一:布尔检索

2021-01-05  本文已影响0人  沿哲

电子资源

GITHUB上的电子书和讲解PPT

信息检索 (Info Retrieval, IR)概述

  1. IR概念:信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。

    • 非结构化data:没有清晰、 明显语义结构的data; 通常指自由文本

    • 结构化data:关系数据库/“表”中的数data

    • 半结构化data:不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记

    知乎-结构化、半、非的解释

  2. 布尔检索

    • 概念:布尔查询是指利用 AND, OR 或者 NOT操作符将词项 连接起来的查询

    • 例子:莎士比亚的哪部剧本包含Brutus及Caesar但是不包含Calpurnia?

      布尔表达式为 Brutus AND Caesar AND NOT Calpurnia

  1. 检索效果评价

    • 正确率(Precision) : 返回结果文档中正确的比例。如返回80篇文档,其中20篇相关,正确率1/4

    • 召回率(Recall) : 全部相关文档中被返回的比例,如返回80篇文档,其中20篇相关,但是总的应该相关的文档是100篇,召回率1/5

      💥 全部返回,正确率低,召回率100%;只返回一个非常可靠的结果,正确率100%,召回率低

      • 写意图 泛-recall高;紧-pre高

      • 人脸闸机 -泛

      • 抓逃犯 -宁可错杀1000不能放过1

倒排索引

  1. 概念:对每个词项t, 记录所有包含t的文档列表
  1. 步骤

    1. 收集文档

    2. 每篇文档转换为词条

    3. 语言学预处理-归一化,得到词项term

      friends - friend

    4. <词条,docID>二元组

    5. (核心)按照词项字母顺序排序

    6. term doc. frequency 👉 posting lists

布尔查询的处理

  1. AND查询处理 ∩

  2. OR ∪

  3. NOT -

  4. 布尔表达式:

    (Brutus OR Caesar) AND NOT (Antony OR Cleopatra)

上一篇 下一篇

猜你喜欢

热点阅读