【转】矩阵分解之SVD和SVD++
前面的内容是关于近邻推荐的相关知识,来看下另外一种推荐方法:矩阵分解。
image为什么需要矩阵分解
协同过滤可以解决我们关注的很多问题,但是仍然有一些问题存在,比如:
- 物品之间存在相关性,信息量并不随着向量维度增加而线性增加
- 矩阵元素稀疏,计算结果不稳定,增减一个向量维度,导致近邻结果差异很大的情况存在
上述两个问题,在矩阵分解中可以得到解决。原始的矩阵分解只适用于评分预测问题,这里所讨论的也只是针对于评分预测问题。常用的分解算法有SVD和SVD++。
矩阵分解
矩阵分解简介
矩阵分解,简单来说,就是把原来的大矩阵,近似分解成两个小矩阵的乘积,在实际推荐计算时不再使用大矩阵,而是使用分解得到的两个小矩阵。
具体来说,假设用户物品评分矩阵为 R,形状为 mxn,即 m 个用户, n 个物品。我们选择一个很小的数 k,k 比 m 和 n 都小很多,然后通过算法生成两个矩阵 P 和 Q,这两个矩阵的要求如下:P 的形状是 mxk,Q 的形状是 nxk, P 和 Q 的转置相乘结果为 R。也就是说分解得到的矩阵P和Q可以还原成原始的矩阵R。
用公式来描述就是:
image.png其中 R 表示真实的用户评分矩阵,一般有很多缺失值(缺失值表示用户没有对该物品评分),带尖帽的 R 表示使用分解矩阵预测的用户评分矩阵,它补全了所有的缺失值。
从另一个角度来看,矩阵分解就是把用户和物品都映射到一个 k 维空间中(这里映射后的结果用户用矩阵P表示,物品用矩阵Q表示),这个 k 维空间不是我们直接看得到的,也不一定具有非常好的可解释性,每一个维度也没有名字,所以常常叫做隐因子。用户向量代表了用户的兴趣,物品向量代表了物品的特点,且每一个维度相互对应,两个向量的内积表示用户对该物品的喜好程度。
SVD
SVD 全程奇异值分解,原本是是线性代数中的一个知识,在推荐算法中用到的 SVD 并非正统的奇异值分解。
前面已经知道通过矩阵分解,可以得到用户矩阵和物品矩阵。针对每个用户和物品,假设分解后得到的用户 u 的向量为 p_u,物品 i 的向量为 q_i,那么用户 u 对物品 i 的评分为:
image.png其中,K 表示隐因子个数。
问题关键来了,如何为每个用户和物品生成k维向量呢?这个问题可以转化成机器学习问题,要解决机器学习问题,就需要寻找损失函数以及优化算法。
这里单个用户对单个物品的真实评分与预测评分之间的差值记为 e{ui}。
image.png将所有用户对物品的真实评分与预测评分之间的差值的平方之和作为损失函数,即
image.png其中,R 表示所有的用户对所有物品的评分集合,K 表示隐因子个数。
我们要做的就是求出用户向量 p_u 和物品向量 q_i ,来保证损失函数结果最小。
求解损失函数优化算法常用的选择有两个,一个是梯度下降(GD),另一个是交替最小二乘(ALS) 。这里以梯度下降为例。
- 准备好用户物品的评分矩阵,每一条评分数据看做一条训练样本;
- 给分解后的 P 矩阵和 Q 矩阵随机初始化元素值;
- 用 P 和 Q 计算预测后的分数;
- 计算预测的分数和实际的分数误差;
- 沿着损失函数梯度下降的方向更新 P 和 Q 中的元素值;
- 重复步骤 3 到 5,直到达到停止条件。
梯度下降算法的一个关键点在于计算损失函数对于每个参数的梯度。
image.png
增加偏置的SVD
在实际应用中,会存在以下情况:相比于其他用户,有些用户给分就是偏高或偏低。相比于其他物品,有些物品就是能得到偏高的评分。所以使用 pu*qi^T 来定义评分是有失偏颇的。我们可以认为 评分 = 兴趣 + 偏见。
image.png其中,μ表示全局均值, bu表示用户偏见,bi表示物品偏见。
举例来说,一个电影网站全局评分为 3.5 分,你评分电影时比较严格,一般打分比平均分都要低 0.5,《肖申克的救赎》的平均分比全局平均分要高 1 分。这里 u=3.5,bu=-0.5,bi=1分。
image.pngSVD++
实际生产中,用户评分数据很稀少,也就是说显式数据比隐式数据少很多,这些隐式数据能否加入模型呢?
SVD++ 就是在 SVD 模型中融入用户对物品的隐式行为。我们可以认为 评分=显式兴趣 + 隐式兴趣 + 偏见。
那么隐式兴趣如何加入到模型中呢?首先,隐式兴趣对应的向量也是 k 维,它由用户有过评分的物品生成。
image.png其中,|N(u)|表示用户u的行为物品集,yj表示物品j所表达的隐式反馈。
总结
介绍了在评分数据中非常受欢迎 SVD 算法以及改进。比如加入偏置信息,考虑隐式反馈等。
参考: