1.4_基于内容的方法的小结

2020-11-23 本文已影响0人蓝冻

1 属性的取值问题

对离散型的属性可进行独热编码，那么对连续型属性我们该如何处理呢？进行0-1标准化处理？

2 计算过程

我们通过简单的加减乘除就实现了计算，并没有像机器学习里面一样定义损失函数，划分训练集和测试集之类的操作。

3 该方法的一些优点与不足

优点：推荐的物品不会太热门，因为计算过程中我们只考虑了单个用户的历史评分数据；个性化效果较好；原理易于理解。

不足：对于新的没有历史评分数据的用户，存在冷启动问题；相同内容特征的物品差异性较小，不一定是用户想要的；要求物品的属性能比较容易抽取。

4 可优化的地方

如果引入时间因子，即考虑到用户的兴趣会随时间迁移的问题，则我们在1.1小节中计算系数的公式也应改变一下。

$\frac{1}{k} \sum_{i=1}^k\alpha^t(p_{i} -p)$

其中， $\alpha$ 为衰减因子，t=t(i) 可取为用户对物品 i 的评分时间到当前时间的时间间隔。为简单起见，对所有用户，我们可以应用同一个 $\alpha$ 值。再深入一点研究的话，应该是不同的用户兴趣衰减的快慢也不一样，即 $\alpha$ = $\alpha （user）$ 。

上一篇下一篇

猜你喜欢

热点阅读