《推荐系统实践》-(第四章)利用用户标签数据
2019-02-18 本文已影响1人
东方清fly
标签应用一般分为两种:一种是让作者或者专家给物品打标签;另一种是让普通用户给物品打标签,也就是UGC(User Generated Content,用户生成的内容)的标签应用。UGC的标签系统是一种表示用户兴趣和物品语义的重要方式。当一个用户对一个物品打上一个标签,这个标签一方面描述了用户的兴趣,另一方面则表示了物品的语义,从而将用户和物品联系了起来。
标签系统的最大优势在于可以发挥群体的智能,获得对物品内容信息比较准确的关键词描述,而准确的内容信息是提升个性化推荐系统性能的重要资源。
4.2标签系统中的推荐问题
标签系统中的推荐问题主要有以下两个。
1) 如何利用用户打标签的行为为其推荐物品(基于标签的推荐)?
2)如何在用户给物品打标签时为其推荐适合该物品的标签(标签推荐)?
为了研究上面的两个问题,我们首先需要解答下面3个问题。
1) 用户为什么要打标签?
2) 用户怎么打标签?
3) 用户打什么样的标签?
4.2.1用户为什么要打标签
用户打标签的动机
4.2.2用户如何打标签
标签的流行度分布也呈现非常典型的长尾分布:某个标签的流行度越高,被用户拿来给物品标注的概率就越小。
4.2.3用户打什么样的标签
理论上, 标签应该是能够准确描述物品内容属性的关键词
实际上,用户往往不是按照我们的想法操作,而是可能会给物品打上各种各样奇奇怪怪的标签。
Scott A. Golder 总结了Delicious上的用户标签的几大类