你可能感兴趣的人——大数据推荐系统理论与实战
什么是推荐系统
金角大王将宝葫芦倒置,喊声:孙行者。悟空应了一声,嗖的一声便被吸了进去。金角大王查看时,里面除了孙悟空,还有行者武松、苍井空、孙权、六耳猕猴、金刚等一干人。金角大王惊讶道:只喊孙行者,怎来了这许多。宝葫芦开口言到:这都是你“可能感兴趣的人”。
在大家平时生活中一定也遇到过不少类似的事情,最常见的当然就是在大家网上购物时的了,当你搜索一个物品或者点赞一个抖音之后,系统便会给你推荐相关物品或者同类型的抖音短视频,也就是“可能感兴趣的物品和视频”,通过推荐系统的计算,顾客不需要花费大量的时间才能找到自己想买的商品,商家也可以用更低的成本将自己的产品更精准的推送到用户面前。推荐系统在电商网站、新闻网站、电影和视频、音乐、社交网络、广告等领域已经得到了广泛的应用,其作用越来越受到重视。
724693112推荐系统常用算法
推荐算法过程
在讲东西推荐给用户之前,推荐系统首先要做的是分析用户。这时我们就需要大量的用户数据了,用户的数据越多越详细推荐就会越精准。在物品和用户分析方面,一些关键字和用户的基本信息比如用户年龄、性别、购物偏好、评分以及查看过哪些物品甚至地区等因素来进行分析,通过推荐引擎将不同的物品推荐到不同的用户面前让他们看到。
在推荐中,又分为大众化推荐、差异化推荐、个性化推荐;大众化推荐,顾名思义是对大众进行推荐的,其主要是推荐一些热销产品,精品等;而差异化推荐则会通过用户的浏览记录、购买记录这些来进行推荐;个性化推荐,就会根据用户的个人偏好了。
协同过滤算法
协同过滤推荐算法是诞生最早,并且较为著名的推荐算法。主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类,分别是基于用户的协同过滤算法(user-based collaboratIve filtering),和基于物品的协同过滤算法(item-based collaborative filtering)。简单的说就是:人以类聚,物以群分。下面我们将分别说明这两类推荐算法的原理和实现方法。
于用户的协同过滤算法是通过用户的历史行为数据发现用户对商品或内容的喜欢(如商品购买,收藏,内容评论或分享),并对这些喜好进行度量和打分。根据不同用户对相同商品或内容的态度和偏好程度计算用户之间的关系。在有相同喜好的用户间进行商品推荐。简单的说就是如果A,B两个用户都购买了x,y,z三本图书,并且给出了5星的好评。那么A和B就属于同一类用户。可以将A看过的图书w也推荐给用户B。计算用户之间的相似度,根据相似度排序选择n个用户,将这些用户喜欢的物品集合中的目标用户还没有产生行为的物品推荐给目标用户
724693112相似度计算有几种经典的算法:杰卡德系数、欧氏距离、杰卡德系数 、欧氏距离、余弦相似度 、皮尔逊相似度都是比较常见的
在这里不多做介绍了,如果大家有兴趣可以加图片下方的群去了解一下,关于推荐系统的理论和实战会像实时交易监控系统那样录制成视频免费分享给大家。
大多数情况下,几种方式计算的结果是一致的
杰卡德系数关心的是样本间共同具有的特征,只能处理符号或布尔值类型的维度数据
欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析
余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分兴趣的相似度和差异
皮尔逊相似度相当于中心化后再计算余弦相似度,当维度取值范围不一致时可以得到更精确的结果
基于物品的协同过滤
协同过滤的选择
基于用户:
推荐跟用户相似的用户喜欢的物品
需计算用户两两之间的相似度,有新的用户或者用户有新的行为需要重新计算
新用户行为较少时不能立即进行基于用户的推荐;
新的物品上线后,只要有用户产生过行为,就可以将其推荐给相似的用户
基于相似用户的喜好,可以提供更好的多样性;倾向于推荐热门物品,不擅长推荐长尾物品适合社会化场景以及物品变化较频繁的场景的推荐,如新闻、博客等内容网站
基于物品:
推荐跟用户之前喜欢的物品相似的物品
需计算物品两两之间的相似度,有新的物品需要重新计算
新用户对某个物品产生行为,就可以推荐相关的物品;新的物品需要经过离线计算与其他物品的相似度后才能被推荐
基于用户历史相关的物品,物品种类可能比较单一;按照物品相似性推荐,能更好的挖掘长尾物品
适合电商网站等用户的数量往往大大超过物品的数量,同时物品的数据相对稳定的场景的推荐
关于大数据推荐系统的理论与实战的详细讲解,我分成两期录制了视频,如果大家对推荐系统感兴趣和想学习大数据的同学可以加群:724693112免费领取视频学习,群里还有其它大数据相关的学习资料可以领取。
推荐系统架构
推荐流程
海量Item、召回、候选集合、排序、排序列表、规则、topN、展示、结果页面。
各大企业推荐系统架构
下面我们看看亚马逊、优酷、携程、陆金所等知名企业的推荐系统架构是怎样的
亚马逊推荐系统架构
携程推荐系统架构
优酷推荐系统架构
陆金所推荐系统架构
通用架构
电影推荐系统
最后和大家一起看看电影推荐系统的一个架构
推荐数据源:
第一类:视频数据流,视频元数据(标题,描述等)
第二类:用户活动数据,主要分为两种。
1 -> 直接活动:对电影评分,对电影点赞,订阅一个上传
2 -> 间接活动:用户观看电影的时长