头条推荐机制

2019-03-27 本文已影响0人知行合一2019

经历**审核、消重**两个阶段后，作者创作的文章将会进入推荐系统，并被可能感兴趣的用户看到。我们知道，文章的阅读量很大程度上取决于系统的推荐量，那么一篇文章的推荐量，是由什么因素决定的呢？要弄清楚这一点，我们需要先了解头条号的推荐机制。机器能聪明地将文章精准地推荐给可能感兴趣的用户，是因为它既能「读懂」文章在讲什么，又能「猜出」用户想看到什么。

一.机器是怎样理解你的文章的？

在门户网站和传统新闻客户端上，哪些文章能上首页是由编辑们决定的，编辑们会在阅读完文章后，会决定是否将其推上版面。因为每个用户看到的页面都是相同的，编辑们的工作量虽然大，但还能够应付。而在今日头条客户端上，每位用户的信息流都是完全不同的，如果5亿用户的信息流都交由编辑来推荐，则是一件不可能完成的任务。

但是机器可以做到，因为其「阅读」文章的方式，在速度上要远远胜过人类。系统会对文章进行特征识别，从而判断文章讲的是什么类型和领域的内容。特征识别的维度有很多，在这里我们重点解释「关键词」。

系统会根据文章中出现的频率，提取出一些词语作为关键词，关键词的判定原则有二：

词频高：如一篇体育类文章内容关于某场足球比赛，那么文章可能会出现的高频词就包括球员名字、足球术语或技巧等，如「C 罗」、「射门」、「突破」。

同类文章中出现次数少：作者撰文时常用到的虚词、转折词等出现频率也很高，但它们不会作为关键词被提取出来，因为这些词在文章中是普遍存在的。

系统判定出一篇文章的关键词后，会将这些关键词与文章分类模型进行比对，命中哪些分类词库关键词的比例大，文章即被打上该分类的标签。

如，一篇文章排名靠前的关键词为「C 罗」、「射门」、「西甲」、「马德里」，那么该篇文章可能会被打上「足球」、「国际足球」、「西班牙」等标签。机器便是这样，完成对文章的初步认知。

因为这种关键词识别机制的存在，作者应尽量避免在文中过度使用非常规词语，如活久见、腿玩年、城会玩等，给自己的文章增加理解障碍。行文用词规范，机器可能更懂你的文章。

除文章正文关键词识别外，机器还会对标题进行关键词的识别和分类比对。因此，在标题中露出具代表性的实体词，可帮助机器理解你的文章。

例如，同样一篇足球类文章，标题「大胡子梅西，大胡子阿奎罗，大胡子伊瓜因，阿根廷美洲杯冠军稳了！」，就比标题「三人蓄须明志，誓要实现多年远大理想」含义更明确，更利于系统识别，获得更多的推荐量。

二.你的文章会被推荐给哪些用户？

每个人的阅读兴趣都是大不相同的，个性化推荐机制要做的事情就是——让每位用户看到可能感兴趣的内容，——这也是用户每天会「沉迷」在今日头条上的原因。

因此反过来，作者创作的内容也就只会被推荐给可能对它感兴趣的用户。比如，某一篇关于C罗的足球文章写得极出色，阅读量超过了100万，放在朋友圈是可以刷屏的爆款文章，但对足球毫无兴趣的用户在今日头条上仍然是看不到这篇文章的。

这种精准推荐，是建立在机器对每位用户都有充分认知的前提下的。在机器中，每位用户实际是由大量数据构成的，用户的阅读兴趣就藏在这些数据中。

不同数据对用户兴趣计算所占权重不同，数据包括：

用户的基本信息

性别、年龄、所处地理位置（城市或地区）；

使用机型、授权账户（如微博、微信等）、手机上经常使用的其他 App 等；

用户主动订阅或喜欢的内容

订阅帐号；

订阅频道；

关注的话题；

机器通过计算得出的用户阅读兴趣

用户阅读过的文章分类和关键词；

用户聚类：相似类型用户还喜欢阅读的其他文章类型；

用户在今日头条客户端主动标记「不感兴趣」的实体词或文章类型。

根据以上数据，系统对用户的阅读兴趣就能有个基本的判断。一般来讲，用户使用产品时间越长，系统积累的阅读数据越多，对其兴趣的判断也就越准确。使用产品的用户越多，系统对用户聚类的判断也越准确。

通过对数据的处理，每位用户将被机器打上各种标签，如一个用户阅读的文章中关键词排名靠前的是：C罗、皇家马德里、欧洲杯、小米、魅族、苹果。那么，这位用户可能被打上「足球、「皇马」、「科技」、「手机」、「米粉」等标签。不同的用户会被打上不同的标签。

当一篇带有「C 罗」、「足球」标签的文章在进行推荐时，系统会将其自动匹配给带有「C 罗」或「足球」标签的用户，这便是推荐引擎的个性化推荐。当然，系统推荐的实际情况会远比这复杂得多，但推荐的基本原理便是，机器通过数据来理解文章和用户，并对两者进行匹配。

三.你的文章是如何被推荐的？

为让受欢迎的内容被更多用户看到，不受欢迎的内容不占用过多推荐资源。头条号文章在推荐时，会分批次推荐给对其感兴趣的用户。

如何理解分批次推荐呢？文章首先会被推荐给一批对其最可能感兴趣的用户（这批用户的阅读标签与文章标签重合度最高，被系统认定最可能对该文章感兴趣。），这批用户产生的阅读数据，将对文章下一次的推荐起到决定性作用。数据包括点击率、收藏数、评论数、转发数、读完率，页面停留时间等，其中，点击率占的权重最高。这很好理解，能吸引众多用户点击的文章自然会被认为更可能是好文章。

头条推荐机制

猜你喜欢

热点阅读