bm25算法详解

2024-02-18 本文已影响0人又双叒叕苟了一天

bm25算法是TF-IDF算法的改进版本，考虑了查询中单词在文档中出现的频率、单词自身的重要性和文档的长度
应用：信息检索领域的排名函数

公式

$Score(D,Q)=\sum_{i=1}^nIDF(q_i)\cdot\frac{f(q_i,D)\cdot(k_1+1)}{f(q_i,D)+k_i1(1-b+b\frac{|D|}{avgdl})}$
说明：

$Score(D,Q)$ 表示查询 $Q$ 和文档 $D$ 的匹配分
首先对查询 $D$ 进行分词，获得每个单词 $q_i$
计算单词 $q_i$ 的逆文档频率 $IDF(q_i)=\log(\frac{N-n(q_i)+0.5}{n(q_i)+0.5}+1)$ ，其中 $N$ 为文档总数（常量）， $n(q_i)$ 是包含单词 $q_i$ 的文档数，意味着出现单词 $q_i$ 的文档数越多，单词越不重要。例如：the，is，是，的这些单词。
$f(q_i,D)$ 表示单词 $q_i$ 在文档D中出现的频率，出现的频率越高，说明匹配分越高。
$k_1$ ：正系数，控制词频的饱和度，取值范围[1.2,2]。 $k_1$ 越大，词频，即单词 $q_i$ 在文档D中出现的频率越大，文档D的匹配分数越高
$b$ ：通常设置为0.75，取值范围[0,1]，控制文档长度对评分的影响，b越大影响越大，0时没有影响。文档长度越大，评分越低。 $avgdl$ 为所有文档的平均长度，为常量。 $|D|$ 为文档 $D$ 的长度。 $|D|$ 越大，分母越大，则分数越低。