推荐系统实践-推荐系统的冷启动问题
冷启动问题主要分为3类:
用户冷启动
物品冷启动
系统冷启动
有以下解决方案:
1.利用用户注册信息
注册信息可以分为三种:
人口统计学信息(年龄,性别,工作等)
用户兴趣描述
从其他网站导入到用户站外行为数据
物品i在具有f特征的用户中的热门程度可以定义为:

其中N(i)是喜欢物品i的用户集合,U(f)是具有特征f的用户集合
但是热门物品往往在每一类用户中都有比较高的p(f,i),因此可以引入参数α,避免这样的物品出现过大的权重:

2.选择合适的物品启动用户的兴趣
在新用户第一次访问推荐系统时,不立即给用户展示推荐结果,而是用户提供一些物品,让用户反馈他们对这些物品的兴趣,然后根据用户反馈给哦提供个性化推荐。
一般来说,用来启动用户兴趣的物品需要具有以下特点:比较热门,具有代表性和区分性,启动物品集合需要有多样性
Nadav Golbandi讲用户分类三类--喜欢物品i的用户不喜欢物品i的用户和不知道物品i的用户,如果这3类用户集合内的用户对其他的物品兴趣很不一致,说明物品i具有较高的区分度。
3.利用物品的内容信息
一般来说,物品的内容可以通过向量空间模型表示,该模型会将物品表示成一个关键词向量。对于中文,首先对文本进行分词,讲字流变成词流,然后从词流中检测出命名实体(人名,地名等),这些实体和一些其他重要的词将组成关键词集合,最后对关键词进行排名,计算每个关键词的权重,从而生成关键词向量。
实际应用过程中,可以首先通过建立关键词-物品的倒排表加速计算过程。
如果用户的行为强烈受某一内容属性的影响,那么内容过滤的算法还是可以在精度上超过协同过滤算法。
如何建立文本、话题和关键词的关系是话题模型(topic model)研究的重点。
代表性的话题模型有LDA。话题模型的基本思想是一个人在写一篇文章的时候,会首先想这篇要讨论哪些话题,然后思考这些话题应该用什么词描述,从而最终用词写成一篇文章。因此,文章和词之间是通过话题联系的。
在使用LDA计算物品的内容相似度时,我们可以先计算出物品在话题上的分布,然后利用两个物品的话题分布计算物品的相似度。
计算分布相似度可以利用KL散度:

其中p和q是两个分布,KL散度越大说明分布的相似度越低。
4.发挥专家的作用
利用专家对数据进行标注,半人工半自动