大数据挖掘2|关联规则
2016-05-10 本文已影响224人
是蓝先生
看到电商中的用户行为数据可能会想到商品间的关联规则挖掘,实际中关联规则主要的应用场景是用于推荐系统中。
一、推荐系统中有很多种推荐方法,关联规则的只是其中一种,下面介绍三个常用的智能推荐方法:
-
(1)基于关联规则推荐: 直接的推荐,从整体的数据中挖掘潜在关联,与单个人的偏好无关,适用于item不多,并且非重度个性化的场景,如超市购物,汽车导购,交通规划等。
可以简单的理解为:就是在一个交易数据库中统计购买了商品集X的交易中有多大比例的交易同时购买了商品集Y,其直观的意义就是用户在购 买某些商品的时候有多大倾向去购买另外一些商品。比如购买牛奶的同时很多人会同时购买面包。 -
(2)基于协同过滤推荐: 间接推荐,协同过滤是基于这样的假设:为一用户找到他真正感兴趣的内容的好方法是首先找到与此用户有相似兴趣的其他用户,然后将他们感兴趣的内容推荐给此用户。适用于重个性化并且item非常多的场景,比如音乐,电影等。
- (3)基于内容推荐:根据物品或内容的元数据,发现物品或内容的相关性,然后基于用户以前的喜好记录推荐给用户相似的物品。比如用户A对音乐《恋爱的犀牛》标记了喜欢,这首歌带上的标签是:小众、民谣。那么系统就会找出带有“小众、民谣”标签的音乐,然后推送给用户A。
网易云音乐的歌单推荐其本质是利用了基于内容的推荐。
- 在利用基于内容进行音乐推荐时会有这几个缺点:歌曲推荐重复的情况和为满足小众口味用户的需求导致工作量巨大。
- 1.对于歌曲推荐重复的情况,网易云音乐采用推荐歌单的方式增大了容错率;
2.对于第二个缺点,用户创建歌单时,会让用户自己给自己的歌单打Tag,不得超过3个,且禁止自建Tag,这两个限制也可能暴露了这套机制的实现方法。歌单上的3个Tag会被分配到歌单下的每首歌上,而一首歌经常会被不同的用户分配到不同的歌单中,那么剩下的事情就变得简单了,只要取在这首歌上被分配得最多的几个Tag来参与算法即可。最后,网易云音乐可以通过歌单和歌曲两个纬度来给我们推荐歌曲。
(有兴趣可进一步查看文章《网易云音乐:3种推荐维度和2种推荐算法漫谈》
http://www.jianshu.com/p/fc20c0637954 )
二、上述的几种都是基于算法的智能推荐,其实在解决冷启动问题方面,有两个方法:朋友推荐和人工推荐
- (1)朋友推荐。主要是根据关注的朋友的喜好去推荐,通过各大社交平台(微信,qq等)去分享音乐,也可以知道朋友的喜好。
- (2)人工推荐。主要是网易音乐编辑人员人工推荐的比较热门的歌单和电台。
最后说一下关于进行关联规则挖掘时,最常用的算法是:Apriori算法和FP-Growth算法。
- Apriori算法尽管有一些缺点,但是该算法的适应性依然最好,实践过程中首选Apriori算法。
- FP-Growth算法具有很好的直观性,但是采用递归算法本身效率低,且生成新的FP-tree时每次都要遍历调减模式基两次,导致需要反复申请数据库服务资源查询相同内容的海量数据,使数据库服务器产生高负荷。