推荐系统实践-推荐系统的冷启动问题

2017-10-18 本文已影响4人 mov觉得高数好难

冷启动问题主要分为3类：
用户冷启动
物品冷启动
系统冷启动
有以下解决方案：
1.利用用户注册信息
注册信息可以分为三种：
人口统计学信息（年龄，性别，工作等）
用户兴趣描述
从其他网站导入到用户站外行为数据
物品i在具有f特征的用户中的热门程度可以定义为：

其中N(i)是喜欢物品i的用户集合，U(f)是具有特征f的用户集合
但是热门物品往往在每一类用户中都有比较高的p(f,i)，因此可以引入参数α，避免这样的物品出现过大的权重：

2.选择合适的物品启动用户的兴趣
在新用户第一次访问推荐系统时，不立即给用户展示推荐结果，而是用户提供一些物品，让用户反馈他们对这些物品的兴趣，然后根据用户反馈给哦提供个性化推荐。
一般来说，用来启动用户兴趣的物品需要具有以下特点：比较热门，具有代表性和区分性，启动物品集合需要有多样性
Nadav Golbandi讲用户分类三类--喜欢物品i的用户不喜欢物品i的用户和不知道物品i的用户，如果这3类用户集合内的用户对其他的物品兴趣很不一致，说明物品i具有较高的区分度。
3.利用物品的内容信息
一般来说，物品的内容可以通过向量空间模型表示，该模型会将物品表示成一个关键词向量。对于中文，首先对文本进行分词，讲字流变成词流，然后从词流中检测出命名实体（人名，地名等），这些实体和一些其他重要的词将组成关键词集合，最后对关键词进行排名，计算每个关键词的权重，从而生成关键词向量。
实际应用过程中，可以首先通过建立关键词-物品的倒排表加速计算过程。
如果用户的行为强烈受某一内容属性的影响，那么内容过滤的算法还是可以在精度上超过协同过滤算法。
如何建立文本、话题和关键词的关系是话题模型（topic model）研究的重点。
代表性的话题模型有LDA。话题模型的基本思想是一个人在写一篇文章的时候，会首先想这篇要讨论哪些话题，然后思考这些话题应该用什么词描述，从而最终用词写成一篇文章。因此，文章和词之间是通过话题联系的。
在使用LDA计算物品的内容相似度时，我们可以先计算出物品在话题上的分布，然后利用两个物品的话题分布计算物品的相似度。
计算分布相似度可以利用KL散度：

其中p和q是两个分布，KL散度越大说明分布的相似度越低。
4.发挥专家的作用
利用专家对数据进行标注，半人工半自动

推荐系统实践-推荐系统的冷启动问题

猜你喜欢

热点阅读