信息检索复习(5)——相关反馈及查询扩展
2018-06-27 本文已影响0人
Eylen
查询优化
- 全局方法
- 基于同义词词典或wordnet的查询扩展或重构方法
- 自动构造同义词词典并基于它进行查询扩展
- 类似拼写校正的技术
- 局部方法
- 相关反馈
- 伪相关反馈
- 间接相关反馈
相关反馈和伪相关反馈
- RF(relevance feedback,相关反馈):在信息检索的过程中通过用户交互来提高最终的检索结果。
- 过程:
- 用户提交简短的过程
- 系统返回初次检索结果
- 用户将部分结果进行标注,标注为相关或不相关
- 系统基于用户的反馈计算出一个更好的查询来 表示信息需求
- 利用新查询系统返回新检索结果
Rocchio相关反馈算法
-
基本理论:找到一个最优查询向量q,它与相关文档之间的相似度最大且同时又与不相关文档之间的相似度最小。
-
最优的查询向量等于相关文档的质心向量和不相关文档的质心向量的差
-
q0 是原始的查询向量,Dr 和Dnr 是已知的相关和不相关文档集合。α、β 及γ 是上述三者的权重。这些权重能够控制判定结果和原始查询向量之间的平衡:如果存在大量已判断的文档,那么会给β 及γ 赋予较高的权重。修改后的新查询从q0 开始,向着相关文档的质心向量靠近了一段距离,而同时又与不相关文档的质心向量远离了一段距离。新查询可以采用常规的向量空间模型进行检索。通过减去不相关文档的向量,我们很容易保留向量空间的正值分量。在Rocchio 算法中,文档向量中的权重分量如果为负值,那么该分量将会被忽略,也就是说,此时会将该分量权重设为0。
正反馈往往比负反馈更有价值,在很多IR系统中,会将参数设置成 y < b,一个合理的取值是 a = 1, b = 0.75, y = 0.15


基于概率的相关反馈方法
-
如果已知一些相关和不相关文档,我们可以通过建立分类器而不是修改查询向量的权重进行相关反馈。一种实现分类器的方法是采用朴素贝叶斯概率模型,这样,就可以根据文档的相关性,来估计词项 t 出现在该文档中的概率
相关反馈的作用时机
- 用户需要有足够的知识来建立一个不错的初始查询。
- 相关反馈要求相关文档间非常相似。Rocchio相关反馈模型通过计算簇质心向量,隐式的将相关文档看成单个簇。如果相关文档包括多个不同子类,即它们在向量空间中可以聚成多个簇,那么Rocchio方法效果会不太好。
- 相关反馈不能解决的问题
- 拼写错误
- 跨语言IR
- 用户的词汇表和文档集的词汇表不匹配
Web上的相关反馈
- 相关反馈技术在Web很少使用(高级搜索)
- 相关反馈很难向普通用户解释清楚
- 相关反馈技术主要提高召回率,而Web搜索用户并不在乎
相关反馈策略的评价
- 至少需要有5篇已判定的文档
- q0的正确率-召回率曲线,qm的正确率-召回率曲线,一般MAP指标会有50%的提升。(只对用户没有看过的文档进行评价)
- 利用剩余文档对反馈后的结果进行评价
- 给出两个文档集,一个用于初始查询和相关性判定,另一个用于比较和评价
- 更好的评价方法:进行用户调查
基于时间:与其他方法相比,用户采用相关反馈技术找到相关文档的时间是否更短 / 用户在固定时间内是否能找到更多的相关文档
伪相关反馈(pseudo relevance)(盲相关反馈 blind relevance feedback)
它将相关反馈的人工操作部分自动化,因此,不同于Rocchio算法,用户不再需要进行额外的交互。该方法首先进行正常的检索过程,返回最相关的文档构成初始集,然后假设排名靠前的k篇文档时相关的,最后在此假设上像以往一样进行相关反馈。
间接相关反馈(隐相关反馈 implicit relevance feedback)
- Web搜索引擎DirectHit就引入了一种文档排序的思路,即对于某文档,如果用户浏览的次数越多,它的排名越高。