隐式反馈(1):论文速读-Top-N Recommendatio
前言
- 发表在期刊TOIS 2019上的一篇关于Top-N推荐的论文
-
本篇笔记为本人原创,如需转载引用,请务必在文中附上原链接及相应说明,包括作者信息(阿瑟)
-
码字不易,好心人随手点个赞
-
本篇笔记为速读笔记,非标准译文,其中包含了笔者自己对问题的部分理解,仅供参考,欢迎学习交流
-
这篇工作是作者团队对Recsys2016上的工作的扩展[Bayesian Personalized Ranking with Multi-channel User Feedback]
摘要
用户交互构成了不同的反馈通道(channel),例如查看、点击、喜欢或跟随,这些不同类型的数据提供了用户偏好的隐含信息。每个隐式反馈通道通常携带一个一元的、唯一正向的信号,这种信息可以利用协同过滤来生成个性化推荐列表。
本文研究了一个学习排序推荐系统(Learning to ranking Recommender)如何最好地利用来自多通道的隐式反馈信号。基于FM和BPR构建处理多通道隐式反馈的FM-Pair模型 ,区别于传统的方法直接将多通道反馈进行整合,我们提出的方法在训练中使用多反馈通道采样(Multi-channel sampling)。结果表明,多通道采样优于常规采样。
引言
标准FM模型是针对具有显式反馈的数据集进行优化的。在这项工作中,我们使用BPR对FM进行改造,能够让我们从一元(正向)反馈中学习偏好。FM-Pair 可以处理用户反馈一元且只有正反馈的情况(隐式反馈),但它也可以应用于具有显式反馈的数据集。
这篇工作建立在一个初步的,简短的探索性论文(Recsys 2016)之上,其中我们证明了在传统的 BPR 中区分不同通道/类型的隐式反馈的有用性。通道(channels)构成了不同层次的反馈,较高层次反映了较高的用户承诺,传递了比较强烈的偏好信号。 (转发>点赞>点击...)不同通道即不同类型的反馈数据
在本文中,我们将多通道反馈迁移到FM框架中,比较直接利用多反馈通道(作为FM模型中的辅助特性)或通过采样利用不同通道反馈。
- 我们首先研究了在 FM 模型中将不同类型的反馈编码为特征的有效性。
- 扩展了我们的之前的工作 ,构建了多通道采样方法。
基础知识
1.FM
标准的FM考虑二阶特征组合,对于一个用户的特征计算如下: 标准FM模型是为具有显式反馈的数据而设计的。每个用户-物品交互由一个特征向量 x = (x1,... ,xn)∈ Rn 建模,相应的反馈(等级)由一个实数 y 指定。用户-物品交互向量 x 有两个非零元素: 一个对应于特定用户,另一个对应于特定物品。如果用户 u 对物品i 进行评级,则将特征向量 x 指定为 FMs 的一个优点是,能够利用辅助特征(如用户属性、物品属性和交互上下文)。假设用户-物品交互还包括辅助特征 z,扩展的特征向量 x 可以用以下紧凑形式表示:2. BPR
BPR通过最大化偏序似然函数来学习模型参数,是重要的Pairwise学习算法 以矩阵分解为例,计算如下:3. FM-Pair
首先考虑针对用户-物品-特征三元交互的数据的FM表示形式,结构也非常清晰如下: 然后我们根据BPR的思想,构建偏序关系:即观察到的正例与未观察到负例的关系 最后将FM的表示形式带入,即两个FM值的差值 可以看到其表示形式与MF-BPR很相似,只是多了第二项,与交互特征的计算部分多通道/ Multi-channel FM-Pair
在这一部分,作者介绍了两种不同的模型来基于FM-Pair模型利用多通道反馈信息
- 直接将多通道反馈作为辅助特征嵌入到 Fm-Pair模型中。
- 一个更先进的模型:利用信道信息做更有效的多通道采样,为FM-Pair模型提供一种新的优化方法
方法1:Multiple Channels as Auxilliary Features
这里有一个基本假设:反馈的类型(通道)包含一些反映用户对物品的承诺程度或偏好的信息。
在模型中,反馈通道被看作是一个附加的离散特征。如图1所示,物品是播放列表,反馈的通道类型是“ click”、“ share”和“ like”这三种类型的反馈被认为是离散的特征。
对于每个正例,人工构建一个的负例(正例和负例在辅助特征和用户id上都一致,只是负面物品是从用户抽样物品)
这种表示方法的优点是通道类型被编码为输入数据中的附加特征,并且可以无缝地使用 FM模型。该模型学习每个反馈通道的潜在因素,然后用于预测。注意,由于反馈类型只出现在训练时(而不是预测时) ,以便更好地学习用户和物品特征嵌入。
方法2: Multi-Channel Sampling
假设下式p(u,i,j)表示采样得到(u,i,j)的分布概率:
在标准 BPR 中,其中(u,i)是从训练集中均匀抽样(uniform sampling )选出的,负例j 是从 未观察的物品中均匀抽样选出的。对于多通道正反馈,我们引入了反馈层级(Feedback-Level)的概念,反映了反馈通道的重要性。也被用来定义不同反馈通道的顺序尺度。反馈的级别越高,用户对物品的兴趣或承诺级别就越高。例如,在音乐推荐中,假设“ like”比“ click”更能显示用户的兴趣,用户“ like”应该比“ click”有更高的级别。
因此,多通道采样的假设是,给定一个用户,高反馈级别的项目比低反馈级别的项目更受欢迎。
定义有序级别集合,级别i的反馈级别高于i+1。定义L和N分别表示三元组(u,i,j)中正例和负例的物品反馈级别,采样的集合表示如下:
采样分布概率如下: ,对于其中的正向对采样: 根据反馈级别的倒排作为每个反馈级别的权重;总而言之,正取样器首先根据上式选择一个反馈级别,然后统一从该水平取样一个用户-项目对(均匀采样)。采用上述抽样方法,来自较高层次的正反馈被抽样的可能性较大。 而对于负样本采样分布如下:先选择一个反馈级别然后再选择相应级别内的负样本。
实验情况
完整实验请移步原文
总结
这篇工作介绍了一个针对多通道隐式反馈数据的框架FM-Pair,主要创新点在于多通道采样的设计,理解起来并不难,在写作方面值得借鉴。
END
本人简书所有文章均为原创,欢迎转载,请注明文章出处 。百度和CSDN等站皆不可信,搜索请谨慎鉴别。本人习惯不定期对自己的博文进行修正和更新,因此请访问本人简书主页查看最新文章https://www.jianshu.com/u/40d14973d97c