今日头条推荐机制大揭秘
#头条公开课#
今日头条推荐机制大揭秘
为什么你的内容推荐不好?为什么你的流量总是不确定?为什么你的文章推荐到一半就不推荐了?今日头条推荐机制大揭秘,带你全面了解机器如何主动内容的。
第一课
1)推荐原理解析
2)一篇文章的推荐历程
3)推荐中的常见问题
4)如何获得更高推荐
首先第一个问题,推荐原理的解析。
推荐系统的本质就是从一个巨大的内容池里,给当前用户匹配出最感兴趣的几篇文章。用户匹配的依据又是什么呢?有三个要素,第一个是内容,第二个是用户,第三个是用户对内容感兴趣的程度。
1.系统是怎么理解你的内容呢?
系统会根据关键词的识别,然后把内容分为粗分类和细分领域细化分类。
通过运用内容刻化的方式,做关键词的识别。怎么去做关键词的识别呢?判定关键词提取的原则有两个:
原则一高频词规则;原则二独特性规则。像经常出现的虚词,的、地、得、而、对于、关于、吗…… 转折词有虽然、但是、因为、所以、可是,这些都不是所能提取的关键词。
那么,在我们写文章中怎么做到更好识别我们的关键词呢?彭彭老师教给我们三个小贴士,1、避免使用非常规词,2、名人地名用全称不用缩写或外号,3、希望在标题中最好露出具有代表性的实体词。
什么是实体词,其实就是一些名词和代词,例如人名,还有公司名称。这里举一个例子,原标:《流动着的舞台 街头中的故事》,优化后:《印度就是脏乱差?这组图片让你看清印度另一面,与想象中大不同》。标题中有印度,图片,
上面介绍了系统对内容的理解,接下来要讲一讲系统对用户的理解。
2、系统如何猜出用户的阅读兴趣?
首先要做用户刻画,系统会对用户的信息,还有浏览过的文章,分析用户的当前身份以及他当前的环境,还有他的状态是在旅游还是在干别的,通过这一系列的分析,有可能推测出来这个用户可能是一个正在旅游的男性,还是喜欢足球,汽车等等的分类。
经过分类也可称为用户的标签,那标签主要分为三大类。一、基本信息。例如,年龄,性别,还有地域;二、行为信息。订阅账号,历史浏览的文章,关注的话题;三、阅读兴趣。阅读行为,用户聚类,用户标记。做完了这些,就完成了对用户的刻化。
3、系统是怎么精准的把内容推荐给兴趣用户的?
是利用了文章的特征,用户的特征,还有环境的特征。拟合一个用户对内容满意度的函数,每一篇文章的点击概率几十万上百万的实力,将所有的文章按照由高到低的排序,前十名的文章会在此时脱颖而出。介绍了推荐系统,创作者比较关心的角度,就是从一个文章在推荐系统里的生命周期。
第二个问题,一篇文章的推荐历程。
我们写完一篇文章,或者拍完一个视频就会生成一个内容,这个内容就会经历以下一些步骤:1,文章推荐之旅。首先内容要通过审核,然后加权推荐,暴露几千个用户,这个环节称之为冷启动,冷启动完成了以后,会对文章正常推荐,在这一过程中文章就会被展示出来。平台不断地搜集到用户的反馈。例如用户的点击,评论还有举报,基于这些用户的行为,就会进而触发平台的复审流程。复审会直接影响推荐文章的后续推荐。
先来介绍一下内容的审核流程,也就是初审,初审的目的在于判断文章有没有违反国家相关法律的风险。内容经过机器审核和人工审核以非常快的速度通过初审。从而以及展现在读者的面前,冷启动的过程是一个新概念,文章在发表之后就如何还取最初的几千个展现,都知道新的文章发表之后和之前那些已经在平台上的文章相比,具有一定的劣势,现在还是冷文章,大部分可能火不起来,这里就存在着矛盾,如果不把文章展现给用户,不知道这篇文章将来会不会火起来,因此,对于所有的新信息,会做一个加权推荐。
所有的新信息完成之后,文章会展现给用户,就可以判断哪些人喜欢这篇文章,哪些人不喜欢这篇文章,在文章有几千次的点击和分享,点赞时,就会撤销对这篇文章的加权,这个文章后续能不能再被推出来?就靠这篇文章本身的创作实力了。
那么接下来再讲一下正常推荐的流程。正常推荐的流程通过了冷启动阶段的文章,平台会收集到了最基础的推荐效果,如果一篇文章推荐效果很好,自己过的扩量,会认为这篇文章很有潜质,进一步扩展到更多用户面前。
可能是一万个,三万个,五万个甚至更多,如果一篇文章的阅读兴趣不是特别大,推荐表现各种各样的用户行为,系统会检测的到很多数据上的异常,同时负面评论与举报有特别多的现象,这篇文章会再次进入审核流程。也就是复审。如果发现文章存在标题党,虚假的,低俗的这些问题,系统会停止这篇文章的推荐。
上面讲了头条是如何被推荐到用户的过程,以及在平台内经历的审核与推荐的全过程。下面讲讲文章推荐中常见的的问题。
为什么推荐流量不稳定?为什么推荐效果不好?为什么推荐到一半就不推荐了?听彭彭老师为大家解答。
可能是因为作者也不知道以下几个原因,有些可能会问同样一个热点的文章,题材,风格都差不多,为什么有的文章几百万的展现,有的只有几千次的展现,那是因为文章消重策略,用户的阅读体验,优先推动其中的原创文章。
那么一定会问,怎么做才能避免消重策略呢?有三个小贴士,第一个是希望大家坚持做优质的原创,不要作低质内容的无用功。头条整体对低质内容的识别手段和打压手段正在不断的进化,低质内容的生存空间必将越来越窄。第二希望大家面对热点内容的时候,谨慎的去追逐,三,希望大家撰写的文章可以带有鲜明的个人特色。
第二个原因就是同类文章的挤压,针对同一个热点内容,头条的推荐系统会从中选取一篇最适合的推送给用户。也就是说,每篇文章的推荐量,既取决于当时具体的环境,也取决于当时整个内容池里面其他文章的表现。
一篇文章的推荐效果和这篇文章的本身质量也会有很大的相关性,如果一篇文章推荐不好,很有可能是以下几个原因导致的,首先可能是这个作者的创作内容质量不稳定,系统会对作者的创作能力进行评估,如果文章的质量不稳定,就会导致无法很好的评估作者的创作能力,会影响这篇文章最终的推荐效果,
还有一个原因就是创作了内容不垂直,作者的专业创业度不够,如果作者经常换领域,对作者的创作能力评估有影响。继而影响文章的推荐。
第三个原因是文章的用户受众特别小,如果文章是小众领域,例如动漫性的文章,还有实效性时间短,例如体育赛事的文章。
文章推荐一半就不推荐了,那是为什么呢?可能是因为文章出现了指标问题,比如点击率非常高,但是负面评论也特别多,这样的情况下文章会进入复审的流程。复审的过程中会对文章的严格的把控有三个原因:标题党,夸张故意营造悬念,无中生有,有趋势引导都无法通过审核。封面党,低俗,封面不清晰,有低俗的描绘。虚假,文章违背科学常理描述,与证实已发生的事实相悖,会认为是虚假的内容。包含推广信息,当中含有二维码,手机号,连接都会通不过的审核。
还有一些其他的因素也会影响文章的推荐,比如在冷启动时效果差,系统就不会接下来推荐给其他用户。能启动时,文章首先推荐给粉丝,效果不大,也会的影响推荐量。有比如热点文章,当前的热点已经过时,对应的受众就会减少自然。那么么,推荐量也不会高。
彭彭老师最后还希望大家可以面对用户的需要去写一些高质量的文章,注重内容的指导作用,用户非常注重文章的内容价值,很喜欢那些视角新颖,观点鲜明有深度的文章,可以让用户学到新的知识,会有一定的资源倾斜,可以获得更多的推荐量。