推荐系统研究专区

基于图的推荐算法(3):Collaborative Simila

2020-12-07  本文已影响0人  阿瑟_TJRS

前言

摘要

本文提出了协同相似嵌入(CSE)框架,利用用户-物品二部图中的协同关系进行表示学习和推荐。

在该框架中,我们区分了两类邻近关系: 直接邻近关系和 k 阶邻近关系。前者利用交互图中可观察到的显式用户-物品关联,后者利用用户-用户相似性和物品-物品相似性等隐式关联,在交互稀疏的情况下提供有价值的信息。

此外,为了提高可伸缩性和灵活性,我们提出了一种采样技术,该采样技术专门用于捕获这两种类型的邻近关系。

引言

文中对之前的CF改进算法进行总结,这些算法的核心思想:使用一些特定的方法从图中抽取辅助信息,以增加数据用于表征学习。

然而,目前还缺乏一个统一有效的模型来概括底层的计算和针对推荐问题的推荐。
例如,Liang 等人[13]只考虑项目-项目的相似性,而不考虑其他协同关系; Yu 等人[27]只考虑基于排名的损失函数,而不考虑基于评分的。

本文主要的工作在于提出一个基于CF统一的表征学习框架,来同时高效地建模直接和非直接的用户物品关系。

使用direct similarity embedding来建模用户-物品关系;(直接关联)
使用neighborhood similarity embdding模块建模用户间/物品间的相似度。(k阶近邻关联)

使用triplet embedding来实现将上述两模板的统一训练。

此外,利用文中提出的采样技术,CSE 在其优化过程中具有建模不同关系分布的灵活性。

模型方法

模型总体框架如上图所示:

1. 形式定义

针对的是交互二部图G=(V,E),节点包括用户和物品节点。对于显式评分数据,边权重可以是正实数;而对于隐式反馈数据,边权重为二元数值。
整体模型仍然是图嵌入思路,通过对图中节点的分析,训练得到节点嵌入:\Phi \in \mathbb{R}^{|V| \times d}.

其中DSEmbed模块能够灵活运用两个主流建模技术:基于评分和基于排序的方法来建模用户-物品间的关联。

NSEmbed模块主要通过随机游走策略来挖掘用户间或者物品间的高阶近邻关系。

模块的总体损失函数如下:

2. DSEmbed(Direct Similarity Embedding)

对于基于评分的方式,DSEmbed的优化即最大化用户-物品对的似然函数:


还可以借鉴BPR的思想,考虑用户对物品喜欢的偏序关系:正向对(v_i,v_j),负向对(v_i,v_k),最大化正负样例间的似然函数:

相应概率的计算方式如下:

3. NSEmbed (Neighborhood Similarity Embedding)

通过k-步随机游走采样得到两个集合,物品集IC和用户集UC,对于每个集合即包含了k阶近邻相似度,计算如下的似然函数:


过程基本类似于给定上下文预测中心词的CBOW模型。

与其他模型相比,该模型使用了三个参数矩阵 \Phi,\Phi^{UC},\Phi^{IC},分别对应用户-物品交互,用户-用户、物品-物品间关系的建模。
文中感觉该部分没有介绍清楚,相关矩阵的尺度感觉也不大,UC大小应该是|u|d, IC大小应该是|I|d

4. 模型优化

通过负采样方法来进行两个模型的统一优化学习:首先从正样本E中取user-item pair(v_i,v_j),然后通过K步随机游走找到用户v_i和物品v_j的k阶近邻集合。

并通过负采样方法来提升计算效率,两种DS计算公式因此可以改成成如下形式:注意是最小化Loss,注意符号情况
那么对于k阶近邻也通过相似的采样方式进行优化:
优化过程如下:

实验结果

在众多数据集上进行了实验,效果不错

小结

与前两篇:HPE、Hop-Rec出自同一团队,风格相近,思想也相似。

总体看这些方法都是针对二部图进行处理,有些利用了辅助信息;可以对比一下淘宝团队Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba的工作,思路相近,只不过是该工作是构建物品图,单学习物品嵌入,更符合实际业务场景。

END

本人简书所有文章均为原创,欢迎转载,请注明文章出处 。百度和各类采集站皆不可信,搜索请谨慎鉴别。技术类文章一般都有时效性,本人习惯不定期对自己的博文进行修正和更新,因此请访问本人简书主页查看最新信息https://www.jianshu.com/u/40d14973d97c

上一篇下一篇

猜你喜欢

热点阅读