1.4_基于内容的方法的小结

2020-11-23  本文已影响0人  蓝冻

1 属性的取值问题

对离散型的属性可进行独热编码,那么对连续型属性我们该如何处理呢?进行0-1标准化处理?

2 计算过程

我们通过简单的加减乘除就实现了计算,并没有像机器学习里面一样定义损失函数,划分训练集和测试集之类的操作。

3 该方法的一些优点与不足

优点:推荐的物品不会太热门,因为计算过程中我们只考虑了单个用户的历史评分数据;个性化效果较好;原理易于理解。

不足:对于新的没有历史评分数据的用户,存在冷启动问题;相同内容特征的物品差异性较小,不一定是用户想要的;要求物品的属性能比较容易抽取。

4 可优化的地方

如果引入时间因子,即考虑到用户的兴趣会随时间迁移的问题,则我们在1.1小节中计算系数的公式也应改变一下。

                                            \frac{1}{k} \sum_{i=1}^k\alpha^t(p_{i} -p)

其中,\alpha 为衰减因子,t=t(i) 可取为用户对物品 i 的评分时间到当前时间的时间间隔。为简单起见,对所有用户,我们可以应用同一个\alpha 值。再深入一点研究的话,应该是不同的用户兴趣衰减的快慢也不一样,即\alpha =\alpha (user)

上一篇下一篇

猜你喜欢

热点阅读