抖音的圈子是怎么形成的?
内容分发算法自动生成了你看到的抖音圈子,和豆瓣ugc式不一样。所以这篇主要讲内容分发,也就是匹配算法。之前写过这篇文章,但是题目不满意,所以重新发了,见谅。
1.推荐系统的目的
推荐系统的架构与搜索系统的架构具有一定的相似度:二者实现的都是信息与用户意图之间的匹配。搜索系统是将海量内容与用户表意明确的查询词相关联,推荐系统则是将海量内容与用户没有明确表达的偏好相关联。
2.推荐系统的原理
当用户打开内容推荐应用时,提交给系统的信息包括时间、地理位置、网络环境、手机设备型号、登录用户ID(身份认证)等。基于用户ID,推荐系统会从数据库中取出用户的画像数据(User Profile)。推荐系统支持分类和实体词两个维度的用户画像:在分类维度,用户对体育和科技内容感兴趣;在实体词维度,用户对NBA感兴趣。基于体育、科技、NBA,推荐系统会进行下一步的内容召回和排序操作与搜索系统比较相似,系统基于类目查询和实体词查询分别获得候选内容集合。排序模块按照特定预估目标(如点击导向、互动导向、停留时长导向等)对候选集统一排序,并经过规则层的处理后最终反馈给用户。
3.所推荐的内容的标签怎么产生?
分类是树状的,是自上而下依次划分的。在分类体系里,每个节点都有严格的父类继承关系,在兄弟节点层都具有可以被完全枚举的属性值。
标签是网状的,更强调表达属性关系(has a)而非继承关系(is a),只有权重大小之分,不强调包含与被包含关系。
由于网状结构包含树状结构,故而标签可以被应用于分类的场景。在我们设计系统时,可以先基于产品场景快速覆盖主要标签,再结合标签集合的使用频次、专家建议等因素逐步将部分入口收敛到树状的分类体系中来。
标签从何而来?典型的产出方式有专家系统产出(PGC)和普通网友产出(UGC)两种。
当然,由于普通用户的多样性和编辑的开放性,用户标签系统需要经过特定的清洗和归一处理。比如豆瓣,标签输入:给出了输入框,同时也给出了候选标签集合(包含用户自己制定的标签,以及该专辑的常见标签)。用户从已有候选集里选择的成本是显著低于输入成本的,这一设计同时实现了促进用户表达和规范化输入的效果。
标签适合的是文字表意歧义较小、可以枚举的类型。但在某些领域,标签很难准确地表意或概括。比如,怎样定义一个人是帅的或漂亮的?大家各有各的标准,很难达成统一。
在这种情况下,我们需要引入聚类的方式来描述。这种方式并不是以标签词的方式来定义事物是怎样的,而是基于某一维度的特征将相关物品组成一个集合,并告诉你这个新的物品同哪个集合相似。
4.协同推荐的机制
协同推荐可以分为三个子类:基于物品(Item-based)的协同、基于用户(User-based)的协同和基于模型(Model-based)的协同。
基于用户的协同,其基础思路分为两步:第一步,找到那些与你在某一方面口味相似的人群(比如你们都是新手爸妈,倾向于同一种教育理念);第二步,将这一人群喜欢的新东西推荐给你。
基于物品的协同,其推荐的基础思路是:先确定你喜欢什么物品,再找到与之相似的物品推荐给你。只是物品与物品间的相似度不是从内容属性的角度衡量的,而是从用户反馈的角度衡量的。以书籍为例,在协同推荐的场景下,一本书的特征(标签)不再是作者、题材、领域这些静态固有属性,而是哪些用户购买了、哪些用户在购买后给了高分或低分这样的行为动作。
基于模型的协同,是用用户的喜好信息来训练算法模型,实时预测用户可能的点击率。
5.新内容的画像-内容冷启动
在这个冷启动过程中,如果没能得到足够的正面用户反馈(点击行为和阅读体验),系统就会认为这篇内容是不受欢迎的。“冷启动决定一篇内容的命运”的说法丝毫不为过。
内容消费维度包括作者层和内容层两方面:作者层内容消费维度是指,作者的粉丝群体更应该看到该作者的新内容,一个过往表现更好的作者可以得到更高的冷启动推荐量;内容层内容消费维度是指分类信息、关键词、命中的实体和话题等,用于判断内容与用户的偏好是否匹配。
6.新用户的画像-用户冷启动
完善用户画像既可以通过尽可能多的外部渠道数据塑造用户来实现,也可以借助产品设计和运营活动引导用户多沉淀行为来实现。
对于冷启动的用户,我们同样需要尽快完善信息的搜集和预处理工作,建立对用户的初步认知。对移动端产品来说,可以获取信息的途径有多种:
在设备层上,如厂商、型号都是必备信息。
在权限层上,移动设备可补充信息的丰富程度远高于PC。
基于社交关系的应用还会申请读取用户的通信录信息,以此补全用户的社交关系网络。
通过文件目录反推用户已经安装的应用情况,以此来确定用户的偏好信息。
装机渠道:在安卓设备上,通过不同的市场渠道、不同的广告素材转化而来的用户具有不同的特点。比如,通过金融相关素材转化的用户,显然会对金融类内容更感兴趣。在iOS(苹果公司的移动操作系统)设备上,也能通过一些类“邀请码”的设计方式来回溯用户是通过什么渠道安装的。
登录方式:通过第三方登录能够更快速地获取用户的基本信息。
业务设计:偏社交性的应用则会引导用户上传真实头像、补充身份信息等,并结合用户提交的性别、年龄等信息。比如,以支付宝为例,一次过年的集五福活动,就让它收集了数以亿计的关系链数据。而紧随其后的蚂蚁森林、蚂蚁庄园等轻社交游戏,间接地丰富了用户的线下支付数据、用户的健康数据等。
7.老用户的内容推荐
在冷启动阶段新用户更倾向于热门内容,而老用户则更需要长尾内容的推荐。
……未完待续