快速了解冷启动
1.什么是冷启动?
产品刚诞生的时候,没有用户数据,如何设计个性化推荐系统让用户对推荐结果满意,从而愿意使用推荐系统,就是冷启动的问题。
2.冷启动的分类
冷启动问题主要分为3类:用户冷启动,即如何给新用户做个性化推荐物品冷启动,即如何将新的物品推荐给可能对它感兴趣的用户系统冷启动,即如何在一个新开发的网站(没有用户,没有用户行为数据,只有部分物品信息)上设计个性化推荐系统,从而在网站刚发布时就让用户体会到个性化推荐。
3.冷启动问题的解决方案
3.1提供非个性化的推荐
先是给用户推荐热门排行榜,等到用户数据收集到一定程度的时候,再切换为个性化推荐。并且Netflix的研究表明新用户在冷启动阶段确实是更倾向于热门排行榜的,老用户会更加需要长尾推荐。
3.2利用用户注册信息
用户的注册信息主要分为3种:
1. 人口统计学信息,包括年龄、性别、职业、民族、学历和居住地 这种个性化的粒度很粗,假设性别作为一个粒度来推荐,那么所有刚注册的女性看到的都是同样的结果,但是相对于男女不区分的方式,这种推荐精度已经大大提高了。 一个简单的例子:
2. 用户兴趣的描述,部分网站会让用户用文字来描述兴趣 以网易云为例,注册之后会建议用户做一个“口味测试”,题目诸如“如果怪物入侵地球,有一个荒岛可以躲避,可以带一张唱片丰富生活,你会选择哪一类?”如果文案足够幽默,又有有趣的引导,用户做测试时也会很开心。
3.从其他网站导入的用户站外行为,比如用户利用社交网站账号登录,就可以在获得用户授权的情况下导入用户在该社交网站的部分行为数据和社交网络数据。 在腾讯等大公司的产品,确实是可以通过其他产品积攒的用户数据,提取用户的行为特征去确定用户是个什么样的人。
以QQ音乐为例,即使用户没有用过QQ音乐,但腾讯依然可以利用QQ空间、腾讯微博关注了谁、在腾讯视频看过什么等数据,去作为推荐系统的冷启动数据,一个初创网站或app用户注册前还没有他的数据表现,不妨建议用户使用新浪/QQ/微信等社交平台登录,一方面可以降低用户注册成本提高转化率,一方面可以同时获得用户的社交信息,从而获得推荐系统的冷启动数据。
也可以利用用户的手机等兴趣偏好进行冷启动。Android手机开放度较高,因此对于各大厂商来说多了很多了解用户的机会,就是——用户除了安装的应用之外,还安装了其他什么应用。举个例子,当一个用户安装了美丽说,蘑菇街,辣妈帮等应用,基本判定该手机用户是个女性,且更加可以详细的分类为已经结婚还是少女,这对于应用方来说,是一个非常珍贵的资源。
3.3选择合适的物品启动用户的兴趣
系统离线自动生成分类热门结果以及挖掘各种各样的榜单作为候选集,然后综合考虑推荐结果的新颖度、多样性、新鲜度等等多个维度,定制一个通用的推荐候选集。
一般来说,能够用来启动用户兴趣的物品需要具有以下特点: 比较热门,如果要让用户对物品进行反馈,前提是用户得知道这是什么东西; 具有代表性和区分性,启动用户兴趣的物品不能是大众化或老少咸宜的,因为这样的物品对用户的兴趣没有区分性; 启动物品集合需要有多样性,在冷启动时,我们不知道用户的兴趣,而用户兴趣的可能性非常多,为了匹配多样的兴趣,我们需要提供具有很高覆盖率的启动物品集合,这些物品能覆盖几乎所有主流的用户兴趣。
3.4利用物品的内容信息
是关于物品的冷启动问题,即如何将新加入的物品推荐给对它感兴趣的用户。物品冷启动问题在新闻网站等时效性很强的网站中非常重要,因为这些网站时时刻刻都有新物品加入,而且每个物品必须能够再第一时间展现给用户,否则经过一段时间后,物品的价值就大大降低了。针对协同过滤的两种推荐算法——userCF算法、itemCF算法来分别了解一下物品冷启动的问题。
userCF算法 将该物品曝光给随机一组用户,观察用户对物品的反馈,找到对该物品有正向反馈(观看,购买,收藏,分享等)的用户, 后续将该物品推荐给与该用户相似的用户。因此,该物品就能不断扩散开来,从而逐步展示到对它感兴趣用户的推荐列表中userCF算法就需要解决第一推动力的问题,即第一个用户从哪儿发现新物品。最简单的方法是将新的物品随机战士给用户,但是太不个性化。因此可以考虑利用物品的内容信息,将新物品先投放给曾经喜欢过和它内容相似的其他物品的用户。
itemCF算法 基于物品的属性的推荐,一般新上线的物品或多或少都是有一些属性的,根据这些属性找到与该物品最相似的物品,这些相似的物品被哪些用户“消费”过,可以将该物品推荐给这些消费过的用户。该算法的基础是通过用户对物品产生的行为来计算物品之间的相似度,当新物品还未展示给用户时,用户就无法产生行为。 为此,只能利用物品的内容信息计算物品的相关程度。基本思路就是将物品转换成关键词向量,通过计算向量之间的相似度(例如计算余弦相似度),得到物品的相关程度。下表列出了常见物品的内容信息:
3.5采用专家标注
很多系统在建立的时候,既没有用户的行为数据,也没有充足的物品内容信息来计算物品相似度。
这种情况下,很多系统都利用专家进行标注。代表系统:个性化网络电台PandoraPandora雇用了一批音乐人对几万名歌手的歌曲进行各个维度的标注,最终选定了400多个特征。每首歌都可以标识为一个400维的向量,然后通过常见的向量相似度算法计算出歌曲的相似度。