【Tag Recommendation】Flickr Tag R
论文信息
- WWW 2008
- Yahoo! Research
- tagging(给item推荐tag)问题
标签应用:
- 在一个应用程序中,推荐的标签被呈现给用户,用户可以选择相关标签并将它们添加到照片中。
- 推荐标签直接用于丰富检索系统的索引。
主要工作
- 分析用户如何标记照片和他们提供的标签类型
- 提出了四种不同的标签推荐策略。
基于此分析,我们通过推荐可添加到照片的一组标签来呈现和评估标签推荐策略以支持照片注释任务中的用户。 实证评估的结果表明,我们可以有效地为各种照片推荐相关标签。
数据集 Flickr Photo
52 million photos
188 million tags(3.7 million unique tags.)
TAG BEHAVIOUR IN FLICKR
How do users tag
Distribution of the Tag Frequency in FlickrThe x-axis represents the 3.7 million unique tags, ordered by descending tag frequency.
The y-axis refers to the tag frequency.
幂律的中间部分包含最有趣的标签推荐候选者,因为:
- 尾部的标签被判断为不稳定的描述符;
- 头部包含的标签过于通用而无用
The x-axis represents the 52 million photos, ordered by the number of tags per photo (descending).
The y-axis refers to the number of tags assigned to the corresponding photo.
What are users tagging
Most frequent WordNet categories for Flickr tags用户不仅标记照片的视觉内容,而且在很大程度上提供拍摄照片的更广泛的上下文,例如位置,时间和动作。
TAG RECOMMENDATION STRATEGIES
Given a photo with user-defined tags, an ordered list of m candidate tags is derived for each of the user-defined tags, based on tag co-occurrence. The lists of candidate tags are then used as input for tag aggregation and ranking, which ultimately produces the ranked list of n recommended tags.
使用 co-occurrence 来推导标签之间的关系。 给定用户定义的标签和照片,与用户定义的标签共存的标签通常是推荐的良好候选者。
Tag Co-occurrence
我们将两个标签之间的 Co-occurrence 定义为其中两个标签用于相同的注释的次数。通常将共现计数与标签的总频率标准化。 基本上有两种不同的归一化方法:对称和非对称。
-
对称系数擅长识别等同的标签
Symmetric measures -
不对称标签共现更可能提供比其对称对手更合适的候选标签多样性
可以将此解释为照片用标签tj注释的概率,因为它是用标签ti注释的。
Asymmetric measures
Tag Aggregation and Promotion
当已知每个用户定义标签的候选标签列表时,需要标签聚合步骤以将列表合并为单个排名。
aggregation methods:
- Vote
does not take the co-occurrence values of the candidate tags into account. - Sum
uses the co-occurrence values to produce the final ranking.
实验
给定Flickr照片和一组用户定义的标签,系统必须推荐标签,这些标签是照片的良好描述符。 系统提供标签列表(按照作为照片的良好描述符的可能性的降序排序)。 期望这样的系统向用户呈现推荐标签,使得用户可以通过从列表中选择相关标签来扩展注释。