助你一笔之力——消重是怎么回事儿?
我们知道,在互联网上,同样的文章、图片、视频被多个媒体刊登,是很常见的
情况。无论是网站,还是各种媒体平台上,原创内容除了原创来源之外,往往还
会被很多其他媒体转载或复制。
如果我们用搜索引擎搜索一篇内容,经常会得到多个网址。在过去,我们只要自1
己筛选和判断,哪个网址更权威,更有价值,再点击去访问就可以了。
但是想象一下,如果这样的景象是出现在你今日头条的信息流里——系统连续给
你推荐了几篇相似的内容,会怎么样?
你可能会觉得:为什么要给我推荐一样的内容呢?系统应该选择最好的那个来
源,给我推荐一次就够了——如果我想看,看一篇就够了,如果我不想看,那么
重复推荐也没有意义啊!
没错,所以今日头条在推荐某篇内容之前,必须进行消重。
消重,就是指对重复、相似、相关的文章进行分类和比对,使其不会同时或重复
出现在用户信息流中的过程。
通过系统的计算,一篇文章的文本、标题、图片等都是可以转换成一串数字代
码,这就像我们每个人的身份证,如果两个人的身份证号码一模一样,那么就可
以肯定这是两个一样的人了,并不一定要仔细去看他们的长相。文字信息的「身
份证」也能起到类似的作用,对于图片、视频等信息形式,原理也是类似的。
在计算一篇内容的「身份证」之后,基本上有两种情况。
这是一个系统中独一无二的身份证,换言之,同样的内容在系统里只有这样一
篇。
对于内容发布者来说,这恐怕是最理想的情况了,这种情况下,在向读者推荐相
同内容时,系统除了推荐这一篇外,别无选择。
第二种就要复杂得多,同时也是最常见情况:
系统里存在多篇不同内容,都具有同一张身份证。这时,系统就需要从这些相同
内容中选择一篇“关键项”向用户推荐。进行选择的最终目的是保证向用户推荐
的内容来自更权威、更有可能是原创来源的头条号。
两篇相同的内容,在内容本身之外可能存在很多的差异,这些差异就是判断的关
键,具体的计算标准是非常多的,其中最重要的一些包括:
①来源头条号是否开通「原创」标记;
②发布时间;
③来源的权威性和在网络上被引用的次数。
举例来说,假如「央视新闻」通过头条号平台在5月19日上午发布了一篇内容,
「门头沟新闻」的头条号在5月20日上午转发了同样一篇内容,两者都没有标记原
创,那么:
首先,根据文本分析,这两篇内容会被计算出一个相同的「信息指纹」;接着,
「央视新闻」是比较权威的新闻报道媒体,而且,「央视新闻」的内容发布时间
更早,因此,是权威、原创来源的可能性就远远大于「门头沟新闻」;那么,
「央视新闻」所发布的同一篇内容,就会被认定是这两篇内容中的关键项( 官方
英文名叫Keyitem),继而向用户推荐。
假如说,同样的内容,5月19日先由「门头沟新闻」的头条号发布,5月20日再出
现在「央视新闻」的头条号上,系统会如何判定呢?
这就比较复杂了,但是综合看来,系统选择最佳内容来源的可能性非常大。
有一种例外的情况是,某篇内容被头条号利用「原创」功能,标记了「原创」,
那么在这种情况下,系统会有很大的几率把这篇内容选择为「关键项」,无论其
他因素的比较结果如何(尽管如此,「原创」头条号应该尽量谨慎地使用这个功
能,一旦被举报滥用原创,查实后会被永久取消申明原创的资格)。
一旦系统发现了可能对某篇内容感兴趣的用户正在刷新今日头条客户端,那么系
统会自动把具有同样「信息指纹」的内容中,经过挑选最优的一篇推荐到用户的
信息流。剩下具有相同「信息指纹」的内容,就几乎不可能获得推荐了。
这就是基于内容的消重规则,这解释了为什么许多非原创的内容无法在今日头条
获得推荐量的原因。
除了内容消重的规则外,头条号平台上实际还存在一些针对内容之外的消重规
则。
原理与内容消重相似,只不过是仅比较标题以及预览图片的「信息指纹」。
之所以要对具有相同标题或者预览图片的内容进行消重(哪怕它们的内容并不相
同),是因为,假如用户没有点击内容详情页,这看上去就是系统把两篇一样的
内容重复推荐给了用户!
可想而知,这样的浏览体验是很糟糕的,况且,很少有人愿意连续点击几篇看上
去一模一样的内容,因此这样的推荐也很少起效果。
你肯定对这样的景象不陌生:每当有某个社会热点事件或者话题出现的时候,媒
体、自媒体、KOL们一拥而上,竞相报道事件细节或者发表观点,让你的微博、朋
友圈被有关这件事的种种内容“刷屏”。
追逐热点,是媒体、自媒体很本能的一种行为模式,但是对于用户来说,需要的
其实并不是反复看到相同的信息,如果有足够优质的报道或者观点的话,其实看
有限的几条就够了。
机器为避免在同一时间段用户看到太多同一事件的文章,就会启动对「相似主
题」的消重。
不难想到,对于主题的消重原理和对内容的消重其实原理是一样的,如果能对文
章中全部的关键词进行统计并计算信息指纹,当然也可以对其中部分与话题相关
的关键词进行统计并计算信息指纹。
在所有消重规则中,对内容的消重是最严格的,其他类型的消重则更加灵活一
些,因为在信息流里看到重复的内容对用户是最不好的体验。