曾今日头条资深产品经理，现知乎产品总监，《内容算法》作者闫泽华在

2018-05-11 本文已影响5896人曹门霞客行

文/曹门霞客行

初识闫老师，是在他文章下面留言，咨询关于内容运营的问题，闫老师给出非常详细的回答，当时给我的感觉便是富有内才且谦虚严谨。

简书出版推荐了三本书籍，作为一个路人粉给闫老师打call，购买了《内容算法》。

感谢闫老师将经验、实践、知识梳理成文。以一杯咖啡的价格可以读到好作品（少买一件衣服，多看好多本书），非常感恩。

任何愿意将自我价值进行输出和分享的「老师」都值得感恩，利他者人恒利之。

如果给《内容算法——把内容变成价值的效率系统》打标签，我愿意称它为内容推荐领域的头部作品，因为书籍内容最in且受众最广。

封底推荐者的推荐语

内容运营者入门，自媒体的工具书，内容推荐科普书对该书简练的三词定评。

推荐者们的推荐语写得也很讲究，借用文章中的理论，内容的标题和封面决定了内容的打开率，这些推荐语极大的引起了广大读者的兴趣。

从而引出一个话题，作为一个推荐者，或者用于封面的推荐语，为什么没有把书夸得天花乱坠、用词考究？

有两个原因：第一，防止言过其实，读者有很高的期望，结果内容消费体验断崖式的落差；第二，用词考究意味着读者无法在一秒钟理解，那么传播性变差，因此影响书籍成为畅销书。

上个星期，跟百万粉丝拥有者深夜发媸徐老师互动的过程中，电光火石间，突然梳理出关于内容运营两个层面的内容：

作为内容创作者来说，关键在于如何可持续性的产出优质内容，是生存的关键。

对于内容平台运营者来说，在上一层的基础上，如何将用户感兴趣的内容推送给用户，并在此基础上保持内容的消费体验和内容的多样性，是胜出的关键。

先说第一层，如何可持续性的产出优质内容？

如果单凭一己之力，难。

每写完一篇优质的内容，会有一种身体被掏空的节奏，在这种情况下要可持续运营和吸粉，不得不买稿、洗稿、培养风格类似的写手、建立写作模板，保证篇篇10万+，基本上涵盖了现在自媒体的升级方式。

再说第二层，如何推荐合适的内容给用户？

在纯人工推荐的时代，编辑的认知和风格决定推荐的内容带有强烈的个人印记。

所以编辑面临的最大的争议便是作者质问：“为什么我的文章那么好，不推荐？那些很low的文章还上了首页？”。

于是读者质疑：“首页都是些什么文章啊，鸡汤！还没我写的好。”

那个时候，总是思考一个问题，到底什么是好文章？怎么样才能做到让更多的人喜欢和满意。

在人工推荐的时代，我们需要高鉴赏水平的编辑，即高认知且不固执。

为什么说高认知，因为这样他才有好的鉴赏力，欣赏真正好的内容。

同时，他还要不固执，如果只考虑内容好才推荐，而平台的读者80%都在平均认知基准线上时，内容虽好，对读者无用，看不懂他们便放弃了。

作为内容推荐机制从1.0人工推荐，到2.0算法推荐演进的过程中，也存在很多疑惑，在看书的过程中疑惑不断加深，以前的问题又重复出现了，本质的问题没有想透彻，但行业演进时，这些问题会更加凸显且亟待解决。

1.什么是好内容？

我们可以区分什么是绝对的不好的内容，但对好内容没有一个平均的标准。认知水平高的人，看到文章水平低于其认知的，会觉得内容low。

2.什么是优质作者？

同上，有没有一个平台平均的评判标准，虽然每个人的看法不一样，但在同一标准下不会出现两个作者差距太大。

3.好内容和优质作者对平台的意义在哪里，有多重要？

如果真的是我们定义的优质作者流失了，那么流失的原因是算法分发导致的流量不够，还是有流量但收入不够（比如无法分发广告获利）

4.现状是是首页的算法偏差导致推荐的内容low，还是因为本我超越超我（想看的和下意识点击的内容完全不一样）？

如果是推荐冷启动阶段，算法偏差的可能性更大。

5.到底是以内容为导向还是以用户为导向？

如果是内容为导向，那么一篇深度的行业分析，虽然没有娱乐新闻点击率高，到价值更高，故而推荐时应提高其权重。但是好内容不一定有广泛的阅读基础。

如果是用户导向，那么不仅推荐用户感兴趣的内容，并且还应该适当推荐多元化的内容，扩展对用户的了解，保持用户看到内容的多样性。

6.如果推荐权重包含社交、编辑推荐、系统推荐三大块，平台有没有权重倾斜，比如权重的比重是1：1：2。

在看完书以后，以上问题，基本得到解答，过程中做了一些笔记和些许感悟，分享如下：

1.有的权重上升，有的下降，每次选择和反馈，都在进化自己的数字躯体

2.内容断供，体验跳崖，所以要丰富用户画像，在某一内容断供时，有其他内容补上

3.有人习惯好评，有人习惯低分，要根据用户的历史平均分作为基准进行归一化处理，以衡量用户评分背后的认可度

4.给标签匹配推荐权重，高频率标签推荐权重低，低频率标签推荐权重高。如果标签词粒度不够细，不能够全面描述书的内容，就难计算出置信的相似度，达不到足够好的推荐效果。「推荐质量的优劣完全依赖于特征构建的完备性，这是一项系统工程。」

5.推荐算法：物以类聚，人以群分

抱着找茬的心态来看书，在这一节，因为作者翻译的词句不同，如在人以群分模块中，作者提到协同推荐可以分为三个子类，其中的Item-base的协同，作者翻译为物品协同，而中国知网将其翻译为项目协同，个人认为项目协同，歧意更少。

物以类聚：基于内容属性的相似性推荐，系统化而全面的标签体系，不同频率标签权重不同（频率高，权重低，频率低，权重高），推荐得分较高的内容（即相似度较高的内容），用户每重新点击下一个内容，算法重复上次动作，推荐新一轮类似内容，这就是为什么看着看着《爸爸去哪儿》的前段，跳到《妈妈是超人》了，因为一个名叫嗯哼的小朋友。

比如，淘宝买东西，「猜你喜欢」栏目会出现基于最近搜索的内容的推荐。

人以群分：基于用户行为的协同过滤

Item-base项目协同：基于用户选择的项目（也可以理解为物品），先计算已评价项目和待预测项目的相似度，并以相似度作为权重，加权各已评价项目的分数，得到待预测项目的预测值。例如：要对项目 A 和项目 B 进行相似性计算，要先找出同时对 A 和 B 打过分的组合，对这些组合进行相似度计算。

User-base用户协同：比如，亚马逊会出现，购买了这本书的用户还购买了……还浏览了……

PS:人以群分实现相对比物类分要慢一步，因为对用户画像的收集不完善的情况下，推荐是不精准的。

协同推荐的缺点是:

（1）用户对商品的评价非常稀疏，这样基于用户的评价所得到的用户间的相似性可能不准确（即稀疏性问题）;

（2）随着用户和商品的增多，系统的性能会越来越低;

（3）如果从来没有用户对某一商品加以评价，则这个商品就不可能被推荐（即最初评价问题）。

因此，现在的电子商务推荐系统都采用了几种技术相结合的推荐技术。

罗振宇的《时间的朋友》，根据收货地址判断这个区域人的认知水平，决定发真货、高仿、盗版等，哈哈哈哈，认知水平低要交学费的，智商税。

6.继续看场景

考虑到存在家庭账号共享的行为，算法也会进一步基于设备信息来判断当前用户是谁，从而展示同一账号下，相应用户的观看历史。

7.交互界面影响或引导用户按照系统所期望的方式，提供更多的数据，完善算法。对推荐系统而言，交互界面＞数据＞算法。

8.推荐算法的内核：提高分发的效率（让每一个用户更多的去点击）。难怪，没有考虑质量，这是为什么今日头条上很low的内容，如标题党，会获得更多的点击，导致好的内容质量得不到更多的曝光。（书中提到高阶用户对今日头条诟病较多的一点。）

这点知乎做得更好，会有对内容质量的点赞，是踩是赞，还是以后不再推荐类似的「用户」、「话题」、「标签」等。

9.推荐系统评估指标

推荐准确度，表现为用户的点击率和对后续消费行为的预判
推荐覆盖度（多样性），相比于热门排序，长尾内容会得到更多展示。同时也要避免入坑，比如仅关注全局的多样性指标，而不关注个体的多样性指标。

用现在的标准来评价简书的推荐系统，还可以提升，精确度不错，推荐了很多《红楼梦》评论的文章给我。长尾内容也比以前做得好，非以热门论英雄。（问题是很多作者的鉴赏力有限，会积极分享文章到朋友圈的人，也许就是那波容易受热门文章影响，且鉴赏力不够，喜欢分享文章对自己进行标榜的人。所以现在分享文章到朋友圈的读者少了，分享自己的文章的频率较之前差不多。）

10.人工评估系统，facebook的案例

有三个部分：一对一用户访谈，外包团队做的千量级的人工评估，面向普通用户的万量级在应用内投放的问卷。

形式如下：
（1）给出两篇内容，让用户进行点对点的对比。
（2）给出单篇内容提供打分选项，建议用户从内容和自身偏好的相关性、内容的信息量等角度给予1-5分的评分。
（3）给出开放性问题来收集用户对自己信息流的反馈。

PS：问人工评估过程中选取的文章是如何选取？

我猜想两种方式，一是用户看过的文章，二是根据不同算法推荐出来的两篇文章，看哪种算法更好。

11.用户画像数据分为静态和动态数据

静态数据：用户独立于场景之外的属性，如性别、年龄、婚姻、常住地址、教育程度等
动态数据：用户在产品场景中产生的显式和隐式行为，显式行为如点赞、评论、收藏、分享、关注等，隐式行为，如停留页面时长、点击页面次数、用户操作行为轨迹等，通常显式的行为权重高于隐式的行为，因为显式行为比较少，需要隐式行为作为补充。

12.内容冷启动阶段，推荐系统更依赖于内容本身固有属性，可分为内容展现纬度和内容消费纬度。

内容展现纬度：列表页展现给用户的信息，如标题、封面和发布时间等

优化：

根据内容不同，探寻面对不同人群的更适合的表现形式，对于一篇文章，图文展现比纯标题文字展现效果好，对于一个视频，全屏展示视频瀑布流比较好。

内容消费纬度：包含作者层内容消费纬度（作者的粉丝群体更应该看到该作者的新内容，一个过往表现更好的作者可以得到更高的冷启动推荐量；内容层内容消费纬度是指分类信息、关键词、命中的实体和话题等，用于判断内容与用户的偏好是否匹配。）

优化：

一方面，挖掘完善不同内容的特征，比如对视频而言，时长、画面清晰度均可成为补充特征；对短内容而言，冷启动阶段，放大作者的权重，优先推荐给其粉丝群体。

另一方面，引导作者完善内容信息，如给视频增加简介、标注，选择自定义封面而非视频截图，而且封面最好和标题、内容相匹配。平台提供双标题、双封面等功能，帮助创作者更好的传播自己的内容。

PS:避开超流量话题，比如双十一和鹿晗恋情等流量黑洞。

13.图文载体可供系统分析的信息相对丰富，可以统计文章词频，分析内容。对视频载体或短内容来说，由于文本信息匮乏，系统会更倾向于从标题、描述、作者纬度来预估点击率和内容质量，也由于标题的误导，导致好的内容没有得到合适的曝光。

14.所以，我们还有隐私吗？完全被通讯录留了电话的人出卖了也不知道。

15.冷启动阶段，推荐技术的本质是留住用户，不断推荐用户喜欢的内容。产品的主场景留住用户，产品的增值场景可以追求用户兴趣探索，除了用户关注的内容，还会穿插部分扩展推荐性质的内容。经历过冷启动后，已实现用户留存，推荐系统需要牺牲短期点击率来探索用户更广泛的兴趣，从而获得用户长期留存率提升。

16.内容供应层面，不断引入更多内容品类和品牌，同时设置首页展示或广告位（即生推），帮助这类内容通过探索，快速找到基础用户。生推适合大品类、受众广、大规模生产的内容，不适合容易引起争议和让人反感的内容。

生推前，基于专家判断制定简单的人群定向规则，用规则引导新品类、新品牌的加权分发，将全人群的强展示转为特定人群的强展示，从而换取更高的点击率。

17.只要用户停留足够长，用户的兴趣探索就越完善。应对小众兴趣，一是扩充系统的资源地，二是通过产品设计，鼓励用户进行强表达行为（关注、收藏）发现更多兴趣模块。

PS:一次关注行为比一次点击行为更加经得起长时间的衰减。

18.冷启动阶段，作者占很大的权重，所以对作者的评价体系要合理可信。头条号有原创度、健康度、垂直度、关注度和传播度。

19.对原创的保护是各平台的共识和基础建设。微信公众号的原创标识、转载跳转到原文，今日头条检测23个平台，系统6小时内完成检测，抓取疑似侵权链接，交于第三方帮助作者实现维权。

平台要建立扬善的正面引导，惩恶树立平台规则，比如打击**公告，公布被打击的名单等。（与我的观点不谋而合）。

20.常见的推荐问题

推荐重复

3
4

最后一种情况，分别推荐即可。

【建议解释头条号的双封面和双标题权限】就是同一个产品拥有两个版本的封面，用两种不同的方式来表达同一个内容。如同一本书，正反两面都是封面。

针对B类情况，意味着同一个用户，未点击同一个内容的第一个标题和封面，系统会把第二个标题和封面推荐给他，提高内容的曝光率，也不会增加用户一看列表页觉得重复的暴走感。

［真的很有脑洞！］

推荐密集
造成原因是短期热点+对用户兴趣点理解不够，故而密集推荐。

之前就遇到过某个作者内容霸屏的情况，采用不同纬度打散的规则。比如一个读者关心财经和体育，关注了樊刚、虎扑和网易运动栏目，正在NBA期间，采取多维规则前：

NBA 虎扑
NBA 2 虎扑
湖人虎扑
NBA 网易运动栏目
湖人网易运动栏目
六个红包樊刚
买房打脸言论樊刚

改变规则后：

NBA 虎扑
湖人网易运动栏目
六个红包樊刚
NBA 2 虎扑
买房打脸言论樊刚
NBA 网易运动栏目
湖人虎扑

看列表，视觉的密集感下降了。

21.易反感内容

题材问题：恐怖血腥类、神鬼类、迷信类等
质量问题：根据用户点击后迅速退出、举报、负面评论等判断

对这类内容进行收集和标注，为模型训练做准备，研发识别模型，产品经理对模型的准确度和召回度进行评估：

强化阅读体验，重视读者：重视召回率，宁错删不漏删。
强化作者体验，重视文章：适当降低置信度，或者增加人工复审捞回流程。

对易反感内容，用户不点击，则敏感内容应推迟多个周期后才推荐。

22.关于好内容的标准

23.机器学习大面积取代人工判断的时代到来，产品经理要干嘛？训练机器。

设定目标：
指定保底方案：现在首页的文章出现不少广告之类，还可以通过人工审核或用户举报
发现问题：比如大家反应出现的推荐字数很少的内容，设定修正目标，比如内容至少要多于多少字，多哪些内容可以豁免。

24.有价值用户长期留存

【谁在付费？打赏、购买课程、充值会员的。以及哪些作者引起了用户的这种行为。】

25.好的个性化需要克制，引入更多纬度的人工评估进行决策权衡，以可量化的短期指标损失来保证不能轻易量化的消费体验。

26.同样是好内容，有些人是在写艺术品，有些人写消费品。

所以有些写作课，有人觉得low，可能是他在写艺术品，看不上写消费品的作者教授的方法。

27.影响内容的第一次打开率的最直接的因素：

活跃粉丝数量
内容包装好坏
标题和封面即包装。咪蒙说：“不能一秒看懂的标题，不适合传播”。用词斟酌过，没有用好和坏等词来形容，坚持我一以贯之的价值观，一秒看懂的标题简单+直白+有G点。

占据流量太久的甲方，换到乙方没法干活了。在人工选择阶段，会控制标题党，在算法分发的情况下，就靠用户自己用脚投票了。

自媒体成为标题党，是因为懂得他们在做内容快消品的生意。而平台控制标题党，是为了保证用户的阅读体验，有如下方法：

用烂的+广告法规定的，设立规则直接禁
歧义、蹭名人，借助用户反馈发现
基于作者过往的历史，提供不同授信空间

写一秒就懂的标题和有内涵的标题，在技能图谱中，属于不同的象限。

28.REO(Recommend Engine Optimization)机器推荐优化

文字：正常写作即可，涉及英文内容，补充对应中文译名
图文：增加热门关键词，骗过推荐系统进行推荐，早期OK，一旦相应的识别规则上线，将直接影响对应自媒体账号的可信度
视频：现有技术可做基于帧的图片分析或音轨分析，但未大规模应用。写好内容介绍即可，不过分追求标题的精妙，直白的概括内容关键即可。

自媒体关注推荐系统的长期利益诉求，成为一个系统信赖的品牌。

与平台运营者保持良好沟通，加入官方的运营群和核心功能测试时积极反馈使用感受等。

29.关于活动拉新
实物礼品用于鼓励已有活跃的老粉丝，虚拟礼品用于激活和拉新。

30.用户对内容消费意图，分为功利性诉求（通过考试和学知识）和非功利性诉求（长见识）。

能提高工作效率或收入的知识和经验最被用户认可，有63.3%的人愿意付费。有关职业与学业的发展建议，我有40%的付费意愿。内容产品的功利性是包装方向，付费内容一定可以解决的是听者的自我焦虑感。

人们只会对自己觉得对自己有价值、超预期的内容付费。

曾今日头条资深产品经理，现知乎产品总监，《内容算法》作者闫泽华在

在看完书以后，以上问题，基本得到解答，过程中做了一些笔记和些许感悟，分享如下：

猜你喜欢

热点阅读