用于推荐系统评估的概念与指标(2)
在上一篇文章《用于推荐系统评估的概念与指标》中,我们介绍了用于推荐系统评估的概念:实用性。在接下来的文章中,我们会介绍新颖性与多样性。
新颖性
新颖性通常指在推荐中出现新的物品,这在不同文献中有不同的定义。在此,我们将新颖性的定义和指标分为三个层次,如下表所示。本文中把新颖性指标称为𝑛𝑜𝑣(𝑅𝑢)。
日常生活级别的新颖性
创建衡量日常生活级别新颖性的指标并非易事。新颖性等级1的衡量必须考虑系统上下文中的信息,以便衡量用户已知和未知的内容。
2. 系统级别的新颖性
系统级别的新颖性有许多定义。简单来说,对用户而言,新项目是指用户不知道或者知道很少的项目。
有人认为,新颖性是指推荐系统预测用户不知道且通过其他渠道也不会发现的项目。新颖性也被定义为推荐项目与用户已消费的项目之间的差异。新颖性还被定义为用户预测列表中未知项目的比例。
在实践中,以上定义仅在观察用户消费历史中先前消费的物品时,才会考虑新项目,而不会考虑系统外消耗的物品。总而言之,系统级别的新颖性是指在系统信息中用户未知的项目。
大多数文献中提出的的新颖性都是系统级别的新颖性。 有人提出了这样一种评估方法:将推荐列表中的新颖性计算为推荐列表中的项目与用户历史消费中的项目之间的相似性(𝐻𝑢),公式7即该度量标准。
另一些人提出的新颖性则是计算用户的推荐列表中的项目的流行度的总和,公式8 即为这种方法。例如,可以通过消耗该项目的用户的数量来计算项目的流行度(𝑝𝑜𝑝)。此外,他们还提供了度量的变体,例如-𝑙𝑜𝑔2𝑝𝑜𝑝(𝑖)|𝑈| 。
3. 推荐列表级别的新颖性
第3级别涉及到推荐列表级别的新颖性,即不重复推荐的项目。从这个意义上讲,新颖性被定义为推荐列表中不包含用户信息的不重复的项目。说新颖性与用户未知的推荐列表中的非冗余项目有关。简而言之,级别3是级别2的极端情况,级别3甚至不允许推荐列表中出现冗余项目或重复推荐结果。
衡量新颖性第3级别仅需要调查推荐列表中的项目。新颖性第3级的指标不需要用户信息。从这个意义上讲,公式10能够计算推荐列表中项目的相似性,其中𝑑(𝑖,𝑗)表示项目𝑖和𝑗之间的距离。但是,该度量标准更像列表内相似性的度量标准,可能无法衡量新颖性。
此外,还有人提出了一个衡量推荐列表中新颖性的指标,见公式11。该度量考虑了项目在经过排序的推荐列表中的位置,用于计算浏览列表的折扣函数(𝑑𝑖𝑠𝑐(𝑖𝑘)。此外,度量还计算用户在浏览时看到项目(𝑝(𝑠𝑒𝑒𝑛|𝑖𝑘)的概率。由于该概率是指用户消费信息的不确定性,因此该度量最好在新颖性的2级和3级之间进行分类。
多样性
多样性关注推荐列表中项目的丰富程度。对于多样性指标,本文中使用的符号是𝑑𝑖𝑣(𝑅𝑢)。
一些人认为,推荐系统的多样性具有相反的相似效应。作者指出,变化小的推荐列表用户可能不感兴趣。另一些人认为,与用户的消费历史相比,推荐系统通常会预测类似的项目。因此,多样性意味着平衡推荐列表以涵盖用户的整个兴趣集。
与新颖性不同,多样性的定义在文献中大多一致。大家普遍认为多样性代表推荐列表中的各种项目。
有关多样性的度量,大家都倾向于将多样性计算为推荐列表中的项之间的不相似性。一些人提出了一种用于列表内相似性的度量,如公式12所示。函数𝑑(𝑖,𝑗)计算推荐列表𝑅𝑢中项目𝑖和𝑗之间的距离。该指标实际上捕获了列表的相似性;因此,该度量标准的低值表示更相似的列表,其中项目彼此相似。
内部列表相似性度量也被其他多样性工作所使用。另一些人把余弦相似度作为距离函数,该度量标准可以在公式13中看到。
还有人提出了另外的指标,如公式14所述。图14中的公式是针对列表内相似度的更具体的计算。该度量考虑了被分析的每对项目的位置的折扣函数(𝑑𝑖𝑠𝑐(𝑘)。此外,该度量还使用项之间的距离(𝑑(𝑖𝑘,𝑖𝑙),例如余弦相似距离。
阅读更多:
先荐是一款赋能媒体的AI产品,是集内容上传、内容管理、内容分发、推荐干预、前端渲染于一体的一站式推荐服务可视化平台,支持PC、WAP、APP全平台接入,帮助媒体从0到1搭建推荐系统,显著提升用户活跃、留存、观看时长等重要业务指标,在减少技术成本投入的同时,大幅提高媒体运营效率,从而实现业务智能化转型。目前已服务人民日报、环球网、花瓣网、果壳网、段友、36氪、简书等三百余家内容平台,其中在环球网web端的兴趣推荐项目上,实现了点击率58%的提升,同时访问量和营收分别增长了69%、20%。