论文学习：A new user similarity model

2020-08-14 本文已影响0人 python小白22

一.概要

本文重点介绍基于内存的协同过滤算法的推荐性能，提出了一种改进的启发式相似性度量模型，旨在提高预测精度。本文共分为五节，第一节简要介绍了协同过滤方法；第二节提出了协同过滤现存的一些问题以及已有的解决方案；第三节首先分析了现有相似性度量的弊端，然后介绍了所提出的相似性度量方法的动机和假设，最后给出了所提出的相似性度量方法的数学形式化；第四节引入实验验证了所提出的改进的启发式相似性度量模型的优越性；第五节得出结论。

二.协同过滤现存问题

协同过滤（CF）作为一种个性化推荐技术，已在许多领域得到广泛使用。但是，协同过滤还存在一些问题，例如冷启动问题，数据稀疏性和可伸缩性等；会降低协同过滤推荐的准确性。为了提高准确性，许多研究人员提出了一些新的相似性度量。（具体方法及内容在此不再介绍，可点击论文下载链接及相关参考文献进行学习）

三.改进的启发式相似性度量模型

1.现存的相似性度量的弊端

（1）无论两个用户的评分如何，相似度都较低。
（2）无论两个用户的评分之间有何差异，都高度相似。
（3）忽略共同评分的比例会导致准确度低。
（4）放弃评分的绝对值将很难区分不同的用户。
（5）Jaccard和均方差（MSD）的结合只能解决部分问题。

2.改进的启发式相似性度量方法的动机

初始启发式相似性度量
此启发式相似性度量由以下三个因素组成：相似度、影响力和受欢迎度。因此，确定名为PIP。
其中第一个因素是相似度，它不仅计算两个评分之间的绝对差异，而且还考虑这些评分是否一致，从而对不一致的评分进行惩罚；影响力表示用户不喜欢某个项目的程度，如果两个用户对一个项目的评分为5，它将显示出比4更强烈的偏好，我们注意到，当两个评分不一致时，它在计算相似度和影响力时会反复受到惩罚；最后一个因素是受欢迎程度，它表示两个用户的评分有多普遍。如果两个用户的平均评分与总用户的平均评分相差较大，则两个评分可以提供更多关于两个用户相似性的信息。用户u和v之间的PIP相似度可以计算为： $sim(u,v)^{PIP}=\sum_{p\in I}{PIP(r_{u,p},r_{v,p})}$ 其中 $PIP(r_{u,p},r_{v,p})$ 是用户u和v在项目P上的两个评分 $r_{u,p}$ 和 $r_{v,p}$ 的PIP值， $PIP(r_{u,p},r_{v,p})$ 定义如下： $PIP(r_{u,p},r_{v,p})=Proximity(r_{u,p},r_{v,p})*Impact(r_{u,p},r_{v,p})*Popularity(r_{u,p},r_{v,p})$ 以上三个因素的详细计算可在论文原文的参考文献中学习。
改进的启发式相似性度量方法的动机
（1）相似性度量不仅考虑绝对评分，而且考虑共同评分的比例。
（2）相似性不仅取决于本地上下文，还取决于用户行为的全局偏好。
（3）相似性度量应被规范化，并易于与其他相似性度量结合。

3.改进的启发式相似性度量方法的数学形式化

在上节中给出的PIP相似性公式过于复杂且无法标准化。为了惩罚不良相似性并奖励良好相似性，我们在模型中采用了非线性函数。那就是S形函数。此外，我们将改进的PIP度量称为PSS（相似度，重要性，奇异性）。用户PSS相似度可以计算如下： $sim(u,v)^{PSS}=\sum_{p\in I}{PSS(r_{u,p},r_{v,p})}$ 其中 $PSS(r_{u,p},r_{v,p})$ 是用户u和v在项目P上的两个评分 $r_{u,p}$ 和 $r_{v,p}$ 的PSS值， $PSS(r_{u,p},r_{v,p})$ 定义如下： $PSS(r_{u,p},r_{v,p})=Proximity(r_{u,p},r_{v,p})*Significance(r_{u,p},r_{v,p})*Singularity(r_{u,p},r_{v,p})$ 可以看出，PSS测度由相似度，重要性和奇异性三个因素构成。相似度与PlP的类似，然而，它只考虑了两个评级之间的距离；第二个因素是重要性，我们假设，如果两个评分离中间评级越远，评分的重要性就越大，例如，如果两个用户将两个项目评为（4,4）或（2,2）比评为（5,3）或（4,2）更重要；第三个因素叫做奇异性，这一因素反映了两个评分与其他评分的不同之处。这三个因素的形成定义如下： $Proximity(r_{u,p},r_{v,p})=1-\frac{1}{1+exp(-|r_{u,p}-r_{v,p}|)}$ $Significance(r_{u,p},r_{v,p})=\frac{1}{1+exp(-|r_{u,p}-r_{med}|*|r_{v,p}-r_{med}|)}$ $Singularity (r_{u,p},r_{v,p})=1-\frac{1}{1+exp(-|\frac{r_{u,p}+r_{v,p}}{2}-\mu_{p}|)}$ 其中 $\mu_p$ 是项目p的平均评分， $r_{u,p}$ 是用户u对项目p的评分，与初始PIP的三个因素不同，这里每个因素都属于（0,1）。
共同评分是一个非常重要的因素，在这个模型中，我们修改了公式以惩罚一小部分共同评分，定义如下： $sim(u,v)^{Jaccard^{,}}= \frac{|I_u\cap{I_v}|}{|I_u|\times|I_v|}$ 我们可以将PSS与修改后的Jaccard结合起来作为新的相似性度量，称为JPSS。形式化如下： $sim(u,v)^{JPSS}=sim(u,v)^{PSS}*sim(u,v)^{Jaccard^{,}}$ 此外，我们应该考虑每个用户的偏好，不同的用户具有不同的评分标准，一些用户更喜欢给予很高的评价。一些用户倾向于评价低价值，为了反映这种行为偏好，我们采用评分的均值和方差来模拟用户偏好。基于相似性度量的用户评级偏好可以定义如下： $sim(u,v)^{URP}=1-\frac{1}{1+exp(-|\mu_{u}-\mu_{v}|*|\sigma_u-\sigma_v|)}$ 其中 $\mu_u$ 和 $\mu_v$ 分别是用户u和v的平均评分，并且 $\mu_u=\sum_{p\in I_u}r_{u,p}/|I_u|$ . $\sigma_u$ 和 $\sigma_v$ 分别表示用户u和v的评分标准差，并且 $\sigma_u=\sqrt{\sum_{p\in I_u}(r_{u,p}-\overline{r}_u)^2/|I_u|}$ .
则最终改进的启发式相似性公式表示为： $sim(u,v)^{NHSM}=sim(u,v)^{JPSS}*sim(u,v)^{URP}$

四.结论

本文首先分析了现有相似性度量方法的弊端。为了克服这些不足，提出了一种新的基于PIP测度的相似度测度方法。初始的PIP相似度未标准化且计算复杂，因此，本文提出了一种新的相似模型来克服这些不足，而且，改进的相似性度量考虑了两个用户之间的共同评分的比例，考虑到不同的用户具有不同的评级偏好，本文使用均值和方差评分等级以描述用户的评分偏好。本文在最后引入实验，验证了NHSM方法的有效性，并且可以克服传统相似性度量的缺点。