《推荐系统实践》-(第一章)好的推荐系统
1.1什么是推荐系统
1)推荐系统的基本任务是联系用户和物品,解决信息过载的问题。一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢。
科技发展给人们造成困惑2)个性化推荐系统主要解决的问题:推荐系统通过发掘用户的行为,找到用户的个性化需求,从而将长尾商品准确地推荐给需要它的用户,帮助用户发现那些他们感兴趣但很难发现的商品。提高长尾商品(信息)的销售额。
3)推荐系统应用的组成:前台的展示页面、后台的日志系统、推荐算法系统 3部分构成。
推荐系统的组成部分------------------------------------------------------------------------------------------------------------------------------------------
历史进程中,为解决“信息过载”问题提出的解决方案:
1、分类目录:将著名的网站分门别类,从而方便用户根据类别查找网站。But随着互联网规模的不断扩大,分类目录网站也只能覆盖少量的热门网站,越来越不能满足用户的需求。
例如:Yahoo、DMOZ、hao123
2、搜索引擎:让用户通过搜索关键词找到自己需要的信息,这个需要用户主动提供准确的关键词来寻找信息,When当用户无法找到准确描述自己需求的关键词时,搜索引擎就无能为力了。——满足了用户有明确目的时的主动查找需求。
缺点(Shortcoming):需要依赖用户的行为数据
例如:Google、百度
3、推荐系统:通过分析用户的历史行为给用户的兴趣建模,从而主动给用户推荐能够满足他们兴趣和需求的信息(不需要用户提供明确的需求)。——在用户没有明确目的的时候,帮助他们发现感兴趣的新内容。
----------------------------------------------------------------------------------------------------------------------------------------
1.2个性化推荐系统的应用
推荐系统的八个应用领域-------------------------------------------------------------------------------------------------------------------------------------
1.3推荐系统评测
在评测一个推荐算法时,需要同时考虑三方的利益,一个好的推荐系统是能够令三方共赢的系统。
推荐系统的参与方------------------------------------------------------------------------------------------------------------------------------------------
评测推荐系统推荐效果的实验方法:
①离线实验(offline experiment)
离线实验的方法一般由如下几个步骤构成:
A 通过日志系统获得用户行为数据,并按照一定格式生成一个标准的数据集;
B将数据集按照一定的规则分成训练集和测试集;
C 在训练集上训练用户兴趣模型,在测试集上进行预测;
D通过事先定义的离线指标评测算法在测试集上的预测结果。
离线实验的优缺点②用户调查(user study) :用户调查是推荐系统评测的一个重要工具,很多离线时没有办法评测的与用户主观感受有关的指标都可以通过用户调查获得。
用户调查实验的优缺点③在线实验(online experiment):AB测试是一种很常用的在线评测算法的实验方法。
(一个专门介绍AB测试的网站——http://www.abtests.com/)
------------------------------------------------------------------------------------------------------------------
一般来说,一个新的推荐算法最终上线,需要完成上面所说的3个实验。
首先,需要通过离线实验证明它在很多离线指标上优于现有的算法。
然后,需要通过用户调查确定它的用户满意度不低于现有的算法。
最后,通过在线的AB测试确定它在我们关心的指标上优于现有的算法。
评测推荐系统的指标:
10个推荐系统的评测指标
各种评测指标的获取途径
评测维度:
一般来说,评测维度分为如下3种。
用户维度 主要包括用户的人口统计学信息、活跃度以及是不是新用户等。
物品维度 包括物品的属性信息、流行度、平均分以及是不是新加入的物品等。
时间维度 包括季节,是工作日还是周末,是白天还是晚上等。
(注:第一章内容至此完结,文章中总结内容均来自于项亮的《推荐系统实践》)