今日头条的数据使用分析

2016-11-13 本文已影响416人不如杯在手

摘要

自2012年3月后，今日头条快速发展，达到DAU3500W，留存用户3.5亿，人均日消费时长接近一小时[1],成为行业内的让人不可忽视的力量，对订阅式资讯消费等内容产生巨大冲击。今日头条的成功是基于对用户行为的锚定，实现基于用户个性化兴趣的资讯内容推荐，做到“你关心的才是头条”。本文分别对资讯阅读、大数据、算法和个性化推荐分别做介绍，然后再后文中，从今日头条的数据源和数据使用策略进行一定的分析，先得到V1.0分析，后续将对新的分析进行持续跟进，而对于功能层面设计，只进行必要的分析，并不深究，希望和大家来讨论。

基本介绍

资讯阅读指的是用户对文章等内容的消费需求行为。个性化内容推荐是今日头条的杀手锏[2],其胜利也是大数据和算法的胜利。在今日头条之前，资讯阅读是以门户和订阅形式为主，在此之前，Google Reader,网易云阅读等一时风头无两，而在今日头条之后，QQ浏览器、一点资讯、UC浏览器全部开始做起了基于用户兴趣的个性化资讯内容推送。而在使用今日头条时，当持续点击特定主题或者特定tag的文章，内容会集中在这些主题和tag下面，并且对用户点击行为较为敏感。

今日头条首页

大数据[3]最近成为业内追寻的目标，我认为核心在于全，是实现对，描述对象的360度无死角的描述，有针对性的选择重要的数据来解释或预测描述对象的可能发展发现，在咨询阅读中，核心是预测用户的是否为点击特定的文章，其核心便是个性化推荐算法。

个性化推荐是实现用户满意的重要手段，在电商、电影、音乐中已经有了较多的应用，如亚马逊、Netflix和网易云音乐，个性化推荐的核心是对用户的点击行为进行整合，主要分为基于模型推荐以及协同过滤推荐两种，模型推荐是设计负责模型来预测用户对特定文章的偏好程度，而协同过滤推荐是将考虑多个用户和物品的点击关系，如user-based是把和你看过相似内容的用户看过的内容推荐给你，item-based是把你看过的内容中，最近常会被一起看的内容推荐给你。

数据源

今日头条的快速发展离不开其对数据源的以来，在资讯个性化推荐中，数据源可以分为文章资源和用户行为两个方面，

其一是文章资源。今日头条的文章资源除了自己去各大网站上爬下来各种信息资源,实现对全网内容的覆盖，新浪、凤凰、网易等头部网站内容非常重要。另外就是引入了头条号，引入大量UGC的内容，实现有效的文章资源生态圈，通过用户创作，并设定打赏模式，保证写手对内容的优化，从而获得一批深度的内容。

其二是用户行为。用户行为狭义上是用户对文章的点击数据，通过对今日头条的功能分析，可以用到的用户行为如下：

用户曝光数据：用户曝光了的文章；
用户点击数据：用户点击了的文章；
用户不喜欢数据，用户可以选择特定的原因来解释用户为什么对这篇文章不感兴趣，如图所示。从图中可以看出，不感兴趣的理由有重复、内容质量差、来源、文章主题分布以及从标题中抽取出来的关键词。

今日头条的不感兴趣配图
用户搜索行为，在搜索行为中，添加了对用户感兴趣的话题的关心，在体验上貌似并未有效的产生作用，但是对于关键词的基础能力来看，极大的增强了标题内容的重要程度，但是也考虑到文章内容本身和关键词的关系上。
头条号订阅行为，头条号相关的文章下面，让用户选择订阅特定的头条号，形成有效的用户定向内容推送。
文章打赏行为，用户可以对特定文章付费。
用户收藏、评论和分享行为，让用户对特定文章进行收藏和评论。
用户登录行为。今日头条让用户登录新浪微博，从而或者用户在网站外部的信息。
其他行为：爆料、好友行为、话题内容等。

可以看出，今日头条在功能层面对特定文章有较多的设计，而对应的设计都有特定的使用。

数据使用策略

丰富的数据积累是推荐模取得效果的基础，今日头条的数据使用可以分为如下几个部分：

文章资源数据使用
个性化推荐是依赖于优良的文章，通过对今日头条的文章数据分析，可以看出对于文章质量和内容调性的把握上，今日头条投入300+的编辑人力所言不虚，基于这300人力的投入，实现对文章资源的丰富和巩固，在我看来，主要分为这么几个方向：

文章分类和tag提取：今日头条的最细粒度的分类已经做到了300+的能力，这个非常牛逼，而更牛逼的是在技术领域实现对tag提取和语义网的工作，实现文章的聚合。
从今日头条的推荐能力来看，他们已经从主题分类走向了tag语义，带来的推荐效果是多点击几篇三国相关的文章，被推荐内容会迅速集中在三国相关内容，而点击其他后，相关内容会发生显著转移。
在文章分类中，投入大量编辑来持续有效的进行机器学习标注，也是体现出了其价值，但是不是一定要依赖这种劳动密集型产业的方式则值得反思。
文章质量控制。在消费今日头条相关资讯时，明显感知到文章的质量是较优的，极少看到一些三俗的文章，可能就我个人的消费习惯而言的个性化推荐结果，这也说明今日头条已经在文章质量作为一个重要的变量进行分析，而投入人力做标题修改也是很重要的一个质量感知工作。
在文章资源池中，大量的内容是非文本特征的，比如图片和视频。今日头条对图片的处理一方面将各大网站的图集拿过来用，另一个方面则对图片内容较多而文本较少的内容的内容格式重新整合成图集的形式。而在视频这边，也会通过热点视频和用户感兴趣的主题的视频两个维度推荐对应的内容，今日头条的跨业务推荐已经有了一定成果。

用户行为数据使用

登录数据的使用，尤其是微博登录，获取用户的微博行为，有助于快速锚定用户的策略，解决推荐的冷启动问题。
曝光和点击数据
今日头条的个性化推荐算法的核心数据就是用户的曝光和点击数据，根据用户的行为对用户的点击率进行预测，采用点击率预测、相关推荐、协同过滤推荐等方法，获取用户最感兴趣的内容，所以当用户对特定内容感兴趣的时候，会被推荐到这部分兴趣里面去，从而形成持续稳定个性化兴趣和推荐内容输出。
但是这部分的数据无法解决用户新兴趣的探索问题，对于我而言，永远只有历史等内容出现，无法及时有效的获取在科技、体育以及电影这三个方向的兴趣，就笔者刷新结果统计来看，除开一些特定的探索性质的拉取外，平均有50%的内容都是和用户的兴趣相关，若进一步把视频、图片等非资讯形态的内容去掉后，个性化内容可能占比高达70%。
订阅数据
用户的订阅数据是用户主动要求推送的相关内容，对于这部分的数据，今日头条在每一屏中会爆出1篇左右的订阅的头条号推荐的内容，而笔者最多的时候发现3条，这里推测今日头条是基于内容配比的方式，否则难以解释这么稳定的数据输出，对于这一部分，笔者将停止点击订阅数据，看看会不会不再向用户推送相关的内容。
对于用户富交互行为方面，今日头条有用于形成文章质量和相关主题的控制。

总结

大数据时代，数据是进行科学计算、机器学习和个性化推荐的关键，今日头条在业务数据使用上的规则我还要进行深入分析，观察新数据的使用

本期的内容对今日头条的数据使用情况进行了罗列和总结，而在推荐策略和算法层面分析较少，下期将在这两个方面深入。

[1] http://www.cyzone.cn/a/20160109/288150.html
[2] http://mt.sohu.com/20150328/n410458324.shtml
[3] http://dpm-yuanqian.cn/2015/11/29/%E5%A4%A7%E6%95%B0%E6%8D%AE%E7%9A%84%E5%BC%80%E6%94%BE%E6%80%A7-open-is-for-bigger/

今日头条的数据使用分析

摘要

基本介绍

数据源

数据使用策略

总结

猜你喜欢

热点阅读