宇宙信息网:你关心的,才是头条,你的世界是选择性推送的结果

2019-06-11  本文已影响0人  fe3068bf6191

“是什么样的深仇大恨,让今日头条给我妈推送这些东西!”

域名特价活动

.com、.cn、.xyz、.club域名促销,最高享1元购。

昨天突然发现群里快要放假的小伙伴们在组团抱怨,说爸妈从今日头条上看了太多“谣言”和“阴谋论”,转而日日要求作为子女的他们禁食一切外面可以买到的成品食物、日出而作日落而息积极养生、尽快结婚生子+二胎、必须听话不然真.不孝.奥义诅咒加身……等等等等。

是啊,前年的你,还在抱怨七大姑八大姨言论影响爸妈,去年的你,还在吐槽朋友圈谣言给爸妈洗脑……

今年,与时俱进的爸妈,已经学会通过信息流平台接收谣言了!

孩子们不禁要问,“是什么样的深仇大恨,让他们给我妈推送这些东西?!”

(这个已经算很好了,根据个人喜好,会有完全乡村故事会风格的…)

所以今天,回乡青年解救中心 年假办,要帮助大家,用科学武装头脑,从哪里跌倒就从哪里站起来,利用头条发起反攻,拨正爸妈的世界观!

首先,我们先要了解,为什么爸妈的头条APP会接收到这些资讯?!今日头条的推送机制是怎样的?

其实从今日头条的slogan,我们就可以看出来……

对,就是那句:

“你关心的,才是头条”

这里面有三个关键字词:你、关心、和头条。

你:头条的推送机制,针对每一个“你”。你的今日头条,就只是你的今日头条。没错,除了默认置顶的时事资讯,每个人的头条界面上被推送的信息,都是不一样的。

关心:头条APP会根据你的“关心”来推送文章,这正是它讨人喜欢(也是遭人诟病)的地方。你喜欢看娱乐,就给你看娱乐,你喜欢看美女,就给你看美女,甚至,你喜欢看范爷,他就会给你推一堆范爷……

头条:你根据自己关心的,点开、搜索的越多的内容形式,APP越会推给你看,而且会放在你的视觉中心位置,例如更靠前,更显眼。类似于报纸的头版头条。

所以,如果有人对你说:“头条这个平台不好,内容低俗!”其实暴露的,是他个人喜好比较低俗。

相亲的小伙伴可以找机会看看对方的头条,基本就可以判断ta是个什么样的人了(这么机密的信息,当然只有心系群众的回乡青年解救中心 年假办的我们才会告诉你)。

所以,明白了么?大数据时代,我们以为我们通过大数据链接的是全世界,事实上大数据通过我们的每一次点击、搜索,收集了我们的喜好,让我们看到了一个只有自己关注问题的真空世界。

你关注灾难,它会让你觉得到处都是灾难,你关注八卦,它会让你觉得明星天天不消停,你关注谣言,他就天天变着法的给你发谣言……

(这是我的头条画风——每个人的头条,是不同的)

当你的妈妈第一次点开《震惊!少女天天吃外卖,血管竟然抽出油!》的那一瞬间,她就注定会被这些充满着情绪鼓动、养生、噱头、谣言的文章包围了,当她接二连三的看到很多类似的文章之后,她就会开始喋喋不休的要求作为子女的我们禁食一切外面的成品食物、日出而作日落而息积极养生、否则咋的咋的咋的,且为了说明他们说的是必然正确有据可查,还会转发一堆这样的文章给我们看,以示问题严重必须整改否则真.不孝.奥义诅咒加身……!

不要觉得她不可理喻,因为大数据同样裹挟着我们。

当我们看到别人关注转发到朋友圈的内容与我们自己的三观不符时,我们深深震惊的心情,跟妈妈们看我们是完全一样的。

比如下面这位小姐姐,看到一个小美女转发的《想谈一场被人宠成废物的恋爱》,用一种”小伙伴们都震惊了“的语气在群里控诉:

“现在的小姑娘都怎么了?脑子瓦特了吗?这样子的思路哪里是找男朋友,明明是找爹的好不啦?怎么年轻人的三观现在都是这个样子的啦?”

(请通过聊天记录细细感受小姐姐在看到美少女竟想成为恋爱中的废物时那无比震惊的心情)

而咱妈眼神中那些担心和绝望,以及强烈的不认可,是不是跟小姐姐看到《想谈一场被人宠成废物的恋爱》时惊呆了的语气一毛一样:

“这孩子怎么了?怎么跟大家伙(她以为的)都不一样?”

是啊,妈妈们、以及每个跟她一起跳广场舞的阿姨,一起遛狗的邻居,隔壁那谁家的小那谁……他们生活在类似的世界中,他们都高度认可天天吃外卖血管里可以抽出油,所以妈妈认为你跟大家伙都不一样。上面提到的那位小姐姐如果听到这句话,大概就要揪着你普及高血脂的成因和因果的逻辑关系了。

她们虽然存在在同一片土地上,可是她们每天接触的世界,有着天壤之别。

所以,我们以为大数据是地球村,是新世界,事实上,大数据是个非常私人订制的东西。你定制了你的网络世界,你看到的世界,和真实世界相差甚远。

当然,我们公号一向不会只讲原理不讲解决方案的!所以,作为回乡青年解救中心年假办主任的我,为大家总结了一套利用今日头条自身机制反攻的策略:

第一步:反信息

前面我们说了,“你”关心的,才是头条。你会点开什么内容,就决定了大数据会给你推送的内容风。

所以我们要做的,就是利用头条平台的这个特性,把爸妈的三观转换成我们想要的爸妈的三观。

比如可以多找一些类似这样的信息:

《老年人如何活出真我风采》

《可怕!新婚姻法导致双方家庭共同承担过高经济风险,结婚需谨慎!》

《专家称,晚婚已成大趋势,再也不用担心年纪大找不到对象了》

《洋葱日报:生育科技日渐发达,40岁产子不算高龄》

《养生堂-想要活到99,少管孩子多养狗》

……

发到爸妈微信、甚至亲友群里去,当他们点开、浏览,头条后台就会开始改变对他们的判断,重新给他们推送类似的信息。

PS:这点需要长久坚持,频率起码要等同或超出他们接收到其他信息的频率。

爸妈看你的信息越多,头条对他们的判断就会越明确,就会按着你给出的方向,给你的爸妈推送你想要他们看的内容。

第二步:物理接触

趁回家帮爸妈清理手机的功夫,打开头条,主动搜索你想让他们看到的资讯,疯狂点开。

顺便帮七大姑八大姨清理一下手机吧!反正,你每年都少不了要做这些事的不是吗

第三步:“头条AI你好,这部手机拒收此类内容,请查收并处理。”

点开你想让他们看到的内容的同时,记得x掉你不想让他们看到的咨询:

然后头条会弹出这个:

注意不要选择“看过了”!不然头条只是不再推送这一条,类似信息还会继续推送!

操作完毕后,头条号会根据你x掉资讯的这类操作,精准的屏蔽此类信息。

按照这些步骤循环操作几次,至少你这个年假里,不必去应付头条给你爸妈带来的影响,可以让你集中精力,专心的对付七大姑八大姨了!

科技武装头脑,科技武装精神,让我们带着互联网大数据科学技术,勇敢的踏上回乡的飞机和火车,在这美好的新的一年里,重塑爸妈的世界观吧!

如果你对品牌推广有困惑,可以扫码咨询;

如果你想与我们合作,可以扫码洽谈。

不定期更新

信息流广告精准投放

今日头条资讯推荐系统本质上要解决用户、环境和资讯的匹配,要达到这一效果,其算法推荐系统输入三个维度变量:

一是内容特征,图文、视频、UGC小视频、问答、微头条等,每种内容有很多自己的特征,需要分别提取;

二是用户特征,包括兴趣标签、职业、年龄、性别、机型等,以及很多模型刻画出的用户隐藏兴趣;

三是环境特征,不同的时间不同的地点不同的场景(工作/通勤/旅游等),用户对信息的偏好有所不同。

结合这三方面维度,今日头条的推荐模型做预估,这个内容在这个场景下对这个用户是否合适。

算法推荐要达到不错的效果,需要解决好这四类特征:

相关性特征,解决内容和用户的匹配;

环境特征,解决基础特征和匹配;

热度特征,在冷启动上很有效;

协同特征,考虑相似用户的兴趣,在一定程度上解决所谓算法越推越窄的问题。

但是,曹欢欢表示,点击率、阅读时间、点赞、评论、转发,这些都是可以量化的,但一个大体量的推荐系统,服务用户众多,不能完全由指标评估,引入数据以外的要素也很重要。有些算法可以完成,有些算法还做不到、做的不好,这就需要内容干预。

总之,没有一套通用的模型架构适用所有的推荐场景,头条仍需要一个非常灵活的算法实验平台,这个算法不行,马上试另一个算法,实际上是各种算法的一个复杂组合。据雷锋网了解,西瓜视频、火山小视频、抖音短视频、悟空问答,都在用头条这一套推荐系统,但具体到每套系统,架构都不一样,需要不断去试。

正在基于上文所述反复训练推荐的需要,今日头条有一个世界范围内比较大的在线训练推荐模型,包括几百亿特征和几十亿的向量特征。

但是,完全依赖模型推荐成本过高,因此,今日头条也有简化策略的召回模型——基于召回策略,把一个海量、无法把握的内容库,变成一个相对小、可以把握的内容库,再进入推荐模型。这样有效平衡了计算成本和效果。

曹欢欢表示,在今日头条工作前三年,收到用户反馈最大的一个问题就是——“怎么老给我推重复的?”

曹欢欢解释称,每个人对重复的定义不一样。有人昨天看到一篇讲巴萨的文章,今天又看到两篇,可能就觉得烦了。但对于一个重度球迷来讲,比如巴萨球迷,可能恨不得所有报道都看一遍。要解决这个问题,就需要精确抽取文本特征,比如哪些文章说的是一个事儿,哪些文章基本一样等。而文本特征对于推荐的独特价值就在于,没有文本特征,推荐引擎无法工作,同时,文本特征颗粒度越细,冷启动能力越强。

而语义标签的效果是检查一个公司NLP(自然语言处理)的试金石。

频道、兴趣表达等重要产品功能,需要一个有明确定义、容易被理解的文本标签体系。在隐式语义特征已经可以很好地帮助推荐、做好语义标签需要投入远大于隐式语义特征的情况下,仍需要做好语义标签。

除了用户的自然标签,推荐还需要考虑很多复杂的情况:

1)过滤噪声:过滤停留时间短的点击,打击标题党;

2)惩罚热点:用户在热门文章上的动作做降权处理;

3)时间衰减:随着用户动作的增加,老的特征权重会随时间衰减,新动作贡献的特征权重会更大;

4)惩罚展现:如果一篇推荐给用户的文章没有被点击,相关特征(类别、关键词、来源)权重会被惩罚;

5)考虑全局背景:考虑给定特征的人均点击比例。

现实中,影响推荐效果的因素有很多,需要完备的评估体系,不能只看单一指标,如点击率、留存、收入或是互动,需要看很多指标综合评估:兼顾短期指标和长期指标,兼顾用户指标和生态指标,注意协同效应的影响,有时候需要做彻底的统计隔离等。

那么,所有这些指标可以合成唯一的一个公式吗?“我们苦苦探索了几年,目前还没有做到。”曹欢欢表示。

并且,曹欢欢称,目前很多公司算法做得不好,不是人的问题,而是实验平台的问题。例如A/B Test每次数据都是错的,总上不了线,这个事最后就废了。而一个强大的实验平台,可以实现每天数百个实验同时在线,高效管理和分配实验流量,降低实验分析成本,提高算法迭代效率。

据雷锋网了解,头条现在拥有健全的内容安全机制,除了人工审核团队,还有技术识别,包括风险内容识别技术,构建千万张图片样本集的鉴黄模型,超过百万样本库的低俗模型和谩骂模型等,以及泛低质内容识别技术,曹欢欢强调。

网页推送,是指将经过整理的信息资源以网页的形式迅速转发至用户的界面,实现用户的多层次需求,使得用户能够自己设定所需要的信息频道,并直接在用户端接收定制信息的实现方式。

Server push——崭新的“推”技术,它是一种先进的服务器和客户机之间的通信连接方式,利用在服务器端的CGI脚本程序把数据源源不断地推向客户机,从而使客户机和服务器之间的交互性能大大提高。

服务器在客户机做出一个请求后,和客户机建立一个永久的连接,然后服务器会根据客户机的请求不断把数据包推向客户,这个推的过程是不间断的。由服务器推向客户机的数据在客户机的浏览器上会不断产生新的内容。

所谓信息推送,就是在互联网上通过定期传送用户需要的信息来减少信息过载的一项新技术。推送技术通过自动传送信息给用户,来减少用于网络上搜索的时间。它根据用户的兴趣来搜索、过滤信息,并将其定期推给用户,帮助用户高效率地发掘有价值的信息。

北京今日头条总部,一场问诊算法、建言算法的“让算法公开透明”分享会正在进行,

今日头条资讯推荐系统本质上要解决用户、环境和资讯的匹配,要达到这一效果,其算法推荐系统输入三个维度变量:

一是内容特征,图文、视频、UGC小视频、问答、微头条等,每种内容有很多自己的特征,需要分别提取;

二是用户特征,包括兴趣标签、职业、年龄、性别、机型等,以及很多模型刻画出的用户隐藏兴趣;

三是环境特征,不同的时间不同的地点不同的场景(工作/通勤/旅游等),用户对信息的偏好有所不同。

结合这三方面维度,今日头条的推荐模型做预估,这个内容在这个场景下对这个用户是否合适。

算法推荐要达到不错的效果,需要解决好这四类特征:

相关性特征,解决内容和用户的匹配;

环境特征,解决基础特征和匹配;

热度特征,在冷启动上很有效;

协同特征,考虑相似用户的兴趣,在一定程度上解决所谓算法越推越窄的问题。

但是,曹欢欢表示,点击率、阅读时间、点赞、评论、转发,这些都是可以量化的,但一个大体量的推荐系统,服务用户众多,不能完全由指标评估,引入数据以外的要素也很重要。有些算法可以完成,有些算法还做不到、做的不好,这就需要内容干预。

总之,没有一套通用的模型架构适用所有的推荐场景,头条仍需要一个非常灵活的算法实验平台,这个算法不行,马上试另一个算法,实际上是各种算法的一个复杂组合。据雷锋网了解,西瓜视频、火山小视频、抖音短视频、悟空问答,都在用头条这一套推荐系统,但具体到每套系统,架构都不一样,需要不断去试。

正在基于上文所述反复训练推荐的需要,今日头条有一个世界范围内比较大的在线训练推荐模型,包括几百亿特征和几十亿的向量特征。

但是,完全依赖模型推荐成本过高,因此,今日头条也有简化策略的召回模型——基于召回策略,把一个海量、无法把握的内容库,变成一个相对小、可以把握的内容库,再进入推荐模型。这样有效平衡了计算成本和效果。

曹欢欢表示,在今日头条工作前三年,收到用户反馈最大的一个问题就是——“怎么老给我推重复的?”

曹欢欢解释称,每个人对重复的定义不一样。有人昨天看到一篇讲巴萨的文章,今天又看到两篇,可能就觉得烦了。但对于一个重度球迷来讲,比如巴萨球迷,可能恨不得所有报道都看一遍。要解决这个问题,就需要精确抽取文本特征,比如哪些文章说的是一个事儿,哪些文章基本一样等。而文本特征对于推荐的独特价值就在于,没有文本特征,推荐引擎无法工作,同时,文本特征颗粒度越细,冷启动能力越强。

而语义标签的效果是检查一个公司NLP(自然语言处理)的试金石。

频道、兴趣表达等重要产品功能,需要一个有明确定义、容易被理解的文本标签体系。在隐式语义特征已经可以很好地帮助推荐、做好语义标签需要投入远大于隐式语义特征的情况下,仍需要做好语义标签。

除了用户的自然标签,推荐还需要考虑很多复杂的情况:

1)过滤噪声:过滤停留时间短的点击,打击标题党;

2)惩罚热点:用户在热门文章上的动作做降权处理;

3)时间衰减:随着用户动作的增加,老的特征权重会随时间衰减,新动作贡献的特征权重会更大;

4)惩罚展现:如果一篇推荐给用户的文章没有被点击,相关特征(类别、关键词、来源)权重会被惩罚;

5)考虑全局背景:考虑给定特征的人均点击比例。

现实中,影响推荐效果的因素有很多,需要完备的评估体系,不能只看单一指标,如点击率、留存、收入或是互动,需要看很多指标综合评估:兼顾短期指标和长期指标,兼顾用户指标和生态指标,注意协同效应的影响,有时候需要做彻底的统计隔离等。

那么,所有这些指标可以合成唯一的一个公式吗?“我们苦苦探索了几年,目前还没有做到。”曹欢欢表示。

并且,曹欢欢称,目前很多公司算法做得不好,不是人的问题,而是实验平台的问题。例如A/B Test每次数据都是错的,总上不了线,这个事最后就废了。而一个强大的实验平台,可以实现每天数百个实验同时在线,高效管理和分配实验流量,降低实验分析成本,提高算法迭代效率。

据雷锋网了解,头条现在拥有健全的内容安全机制,除了人工审核团队,还有技术识别,包括风险内容识别技术,构建千万张图片样本集的鉴黄模型,超过百万样本库的低俗模型和谩骂模型等,以及泛低质内容识别技术,曹欢欢强调。

上一篇下一篇

猜你喜欢

热点阅读