【2018-10-14】协同过滤

2018-10-14 本文已影响0人 BigBigFlower

协同过滤基于用户对商品的评分或其他行为（如购买）模式来为用户提供个性化的推荐，而不需要了解用户或商品的大量信息。协同过滤的两种主要的技术：基于邻域的方法和隐语义模型。

将用户和物品交互作用无关的因子（偏置）封装到基准预测中。

bu和bi分别表示用户u和物品i的与评分平均值的偏差

最小二乘法估计bu和bi：

r表示偏好程度，μ表示均值

对每一个物品i：

对每一个用户 u ：

因子分解模型

--------------SVD

根据已有的评分情况，分析出评分者对各个因子的喜好程度以及电影包含各个因子的程度，最后根据分析结果预测评分。

qi物品拥有因子的程度，pu用户对因子的偏好程度

--------------SVD++

隐式反馈信息可以增加预测准确度，提供用户爱好的额外指示。

--------------时间敏感的因子分解模型

基于邻域的模型

------------------相似度度量

一般情况下相似度度量是基于皮尔逊相关系数。

U(i,j)包含了同时对物品 i 和 j 评分的用户

基于更大的用户支持的相关系数估计值更可靠：

nij = |U（i，j）|同时对 i 和 j 评分的用户的数量

------------------基于相似度的插值

相似度（1）识别出最近的邻近物品（2）插值权重

---------------------联合派生插值权重

插值权重

增强的基于邻域的模型

-----------全局化的邻域模型

（1）不依赖任意的或者启发式的基于物品的相似度。

（2）固有的防止过拟合和“风险控制”的能力

（3）可以捕获包含某个用户所有评分记录中弱信号的总量，不需要值关注最相似的物品的几条评分记录。

（4）允许整合不同形式的用户输入，如显示反馈和隐式反馈

（5）可以以线性时间复杂度和空间复杂度实现高扩展性

（6）数据随时间变化的特点能都整合到模型中，提高预测准确性

----------因子分解的邻域模型

基于物品：

基于用户：

------------基于邻域的模型的动态时序