新闻推荐(10):News Graph: An Enhanced
2020-10-12 本文已影响0人
阿瑟_TJRS
前言
- KaRS2019的一篇长文,主要介绍用于新闻推荐的知识图谱构建工作
-
来自微软亚研和中科大的合作,相关工作见https://www.jianshu.com/p/4f0e6fa6ca30
-
关键问题/背景:
- 知识图谱包含丰富的知识信息和结构关系,对推荐很重要;
- 然而当前推荐使用的都是通用KG,没有结合具体的任务
- 因此这篇文章提出了针对新闻推荐构建的知识图谱,简称NG:
- 通用KG没有包含协同信息,如:被同一用户看过的不同新闻的实体之间存在关联(共现)
- 之前的研究也忽略新闻的主题信息,可以将主题信息加入图中,主题也是吸引用户阅读的重要信息;
- 过去的研究往往不加区分地使用通用KG资源,很多与内容无关/不重要的信息也被包含进来。
-
针对上述分析,NG的主要工作是对应的三点:
- 构建协同关联边,定义三种协同关系(新闻共现,同一用户共现等)
- 利用新闻类别和LDA主题分布作为主题实体,加入图谱
- 提出一个搜索算法,剔除无关的实体。
模型方法
NG的简单示例如下:注意图中不同颜色的边,代表着不同关系1. 剔除无关实体
算法如下:核心思想即对新闻内出现的每个实体进行关联搜索,在2跳的步数内计算相关边的权重(关系的重要程度),主要是找到新闻实体之间的可达路径,选取重要度TopN的关系,然后选取这些关系相关的三元组构成新的图谱2. 利用协同关系
- 同一新闻中的实体存在关联
- 被同一用户点击过的实体存在关联; 文中举了一个例子:很多用户是五月天和周杰伦的双粉,然而通用KG中二者并非直接关联,通过这种协同关系NG可以充分利用这种潜在的关联。
- 出现在同一session的实体存在关联
3. 利用主题信息
新闻主题是吸引用户关注的重要因素。并非每篇新闻文章都包含知识实体。有时候用户点击文章仅仅是因为他们喜欢这些主题。为了填补文章中不包含知识实体或包含非信息实体的空白,文章利用新闻主题补充实体的信息。
考虑新闻文章的两种主题信息,即文章的显性主题和隐性主题。
作为编辑分类的文章类别标签是文章最好的明确的主题信息。然而,有时简单的分类信息可能不够全面,不足以代表文章的主题,特别是当文章没有分类标签的时候,所以还利用LDA主题模型来得到文章的隐含主题。
实验
MSN数据构建知识图谱,利用TransE对NG进行预训练得到节点和关系嵌入。
对于文章本身的内容信息,使用BERT等模型获取,最后文章的表示为实体信息和内容信息的融合:
Attentive Pooling 计算过程如下所示: 对比实验结果如下:
总结
本文针对新闻推荐这一特定领域,提出了一种构建知识图谱的方法,整合协同关系和主题信息,对提升推荐效果有重要帮助。
END
本人简书所有文章均为原创,欢迎转载,请注明文章出处 。百度和CSDN等站皆不可信,搜索请谨慎鉴别。技术类文章一般都有时效性,本人习惯不定期对自己的笔记/博文进行更新,因此请访问本人简书主页查看最新信息https://www.jianshu.com/u/40d14973d97c