推荐系统研究专区

序列推荐(3): Session-aware Linear It

2021-12-17  本文已影响0人  阿瑟_TJRS

摘要

基于会话的推荐旨在根据会话中历史物品的序列预测下一个物品,例如电子商务或多媒体流服务。 具体来说,会话数据表现出一些独特的特征,即会话内物品的会话一致性(session consistency)和顺序依赖性(sequential dependency)、重复的物品消费(repeated item consumption)和会话时效性(session timeliness)

本文提出了简单而有效的线性模型来考虑会话的整体方面。 模型的综合性有助于提高基于会话的推荐的质量。 更重要的是,它提供了一个通用框架来反映会话数据的不同观点。 本文提出的线性模型具有封闭解,因此它们具有高度的可扩展性。 实验结果表明,所提出的线性模型在几个真实世界数据集的各种指标中显示出具有竞争力或最先进的性能

Main Story

传统的推荐系统通常对用户帐户进行个性化设置,假设为一个人所有,并且随着时间的推移是静态的。 然而,这种假设往往是无效的。 首先,可能无法验证基本用户信息,例如人口统计数据。 同一个账户也可能被多个人共享,例如,跨家庭成员的混合浏览和点击行为。 即使是同一个用户也可以根据上下文以不同的方式使用她的帐户,例如与工作相关的与娱乐目的。 因此,纯粹依赖用户帐户可能会导致次优的个性化推荐。

基于会话的推荐完全依赖于用户在正在进行的会话中的操作,以克服上述问题。与传统推荐系统相比,基于会话的推荐系统表现出一些独特的特征。

以上四个属性不一定会出现在所有会话中,一个属性可能比其他属性占优势

对于以上四点,个人对第一点存在疑问,有研究专门针对会话/序列内的多兴趣进行建模

最近基于会话的推荐算法研究将循环神经网络或注意力机制应用于模型顺序依赖,图神经网络 (GNN) 可有效表示会话一致性。然而,它们主要关注会话的某些特性,因此不能很好地推广到各种数据集。此外,它们通常需要高计算成本来进行模型训练和推理。为了克服基于 DNN 的模型的可扩展性问题,最近的研究提出了基于邻域的模型用于基于会话的推荐,这些模型具有高度的可扩展性,它们还在几个基准数据集上实现了与基于 DNN 的模型相当的竞争性能。然而,基于邻域的模型仅利用相邻会话,仅限于捕获会话的全局模式

在本文提出了新的会话感知线性模型,以弥补基于 DNN 和基于邻域的模型的缺点。 具体来说,我们设计了一个简单而有效的模型: (i) 综合考虑了基于会话的推荐的各个方面 (ii) 并同时实现了可扩展性。

Method

1. Preliminaries

简单的讲,就是讲session数据组织成为矩阵形式,最终得到session-item矩阵X\in\mathbb{R}^{m\times n}表示训练数据,而X\in\mathbb{R}^{m\times n} 对应标签数据

问题定义:
会话级推荐即给给定会话内的历史记录,预测用户下一个可能交互的物品。

借鉴SLIM等传统线性推荐算法的定义,文中定义线性item-item模型:

\mathbf{B}\in\mathbb{R}^{n\times n}优化方法如下: 在传统的推荐中,每个用户被表示为所有消费物品的集合,没有会话的概念,X 和 Y 被视为相同的矩阵。 在这种情况下,用\lambda=0,它以方程中 B = I 的平凡解结束。 这对预测是无用的,为了避免这种情况,现有的研究向目标函数添加了一些约束,SLIM强制 B 中的所有条目都是非负的,对角线元素为零

尽管 SLIM在文献中显示出具有竞争力的准确性,但众所周知,SLIM 的训练速度非常慢。 尽管一些扩展方法提出降低训练成本,但在工业规模上,它们在计算上仍然令人望而却步。 最近,EASE及其变体从方程中删除了 B 和 L1 范数约束的非负约束,只留下对角约束:

最终参数可以通过以下公式给出:
尽管反转正则化的 Gram 矩阵是大规模数据集的瓶颈,但封闭形式的表达式在效率上具有显着优势。 EASE [39] 的复杂度与物品的数量成正比。 它还实现了与传统推荐设置中最先进模型相比具有竞争力的预测准确性。 受这些优势的启发,我们利用线性模型的优势进行基于会话的推荐

2. Session Representations

首先讨论如何利用线性模型表示session:

3. Session-aware Linear Models

首先针对不同的session表征形式,设计两种不同的线性模型; 然后将两个模型进行统一。

我们通过重新制定 SLIM的目标函数来提出一个新的线性模型,以适应会话的及时性和会话中重复的项目消耗。 首先,我们采用权重矩阵W\in\mathbb{R}^{m\times n},假设会话的时效性随时间衰减,W 用于区分会话的时效性。 其次,我们放宽了 B 的零对角线约束来处理重复的物品消费。 由于 B 的对角线元素受到松散惩罚,我们的模型允许我们预测相同的物品作为下一个物品。 形式上,SLIS 的目标函数由下式表示

我们仍然可以通过 Karush-Kuhn-Tucker (KKT) 条件为没有 W 的松弛对角线约束实现封闭形式的解决方案。 然而,对于任意权重矩阵 W,获得封闭形式的解决方案并非易事

为了解决该问题,讨论W的两种特殊情况: session权重和物品权重,物品权重不会影响B参数的学习,只需要考虑session的权重影响,它将作为session对应的权重向量来区分session间的重要性。将W通过权重向量的外积来表示:W_{full}=w_{full}\cdot 1^T,w_{full}\in\mathbb{R}^m,\mathbf{1}\in \mathbb{R}^n

那么,下面需要讨论一下如何设置会话的权重:我们假设会话的重要性会随着时间的推移而衰减。 为了反映会话的及时性,我们为最近的会话分配更高的权重 最终使用\sqrt{w_{time}(j)}来定义。

下面具体讨论一下,如何设置权重,本文还是参照已有工作使用两个物品间的位置差来表示物品的物品间的权重:

p(i,s)是物品i在会话s中的位置信息。

这块的权重设计逻辑尚未理解,具体使用时如何使用? 后续会看早期的工作做进一步理解,然后再来更新本博客

但不确定这个权重在推理时如何使用,直接与S交互向量相乘么?

实验

小结

END

本人简书所有文章均为原创,欢迎转载,请注明文章出处 。百度和各类采集站皆不可信,搜索请谨慎鉴别。技术类文章一般都有时效性,本人习惯不定期对自己的博文进行修正和更新,因此请访问本人简书主页查看最新信息https://www.jianshu.com/u/40d14973d97c

上一篇下一篇

猜你喜欢

热点阅读