马蜂窝用户内容贡献能力模型构建
在用户个性化时代,垂直化、精细化的运营,被看作企业重要的竞争力。完整、清晰的用户画像体系,可以帮助企业从海量的用户信息中发掘每个用户的行为特性、潜在能力及兴趣等信息,从而为用户提供具有针对性的服务。
马蜂窝拥有海量的用户出行体验数据,在成长和发展的过程中一直在探索如何通过基于海量 UGC 的数据挖掘出每个用户的基本特征、对旅游主题、目的地的偏好和潜在兴趣,从而精准地定位和标记用户,将优质的内容、商品和服务与用户进行连接。
今天这篇文章,主要围绕马蜂窝用户标签体系中的「用户贡献能力」标签,来介绍我们如何挖掘那些对马蜂窝的 UGC 有贡献能力的群体,这样做的价值是什么。
挖掘用户内容贡献能力的意义
鼓励用户分享原创内容、彼此借鉴旅游信息,是马蜂窝得以持续吸引用户的核心。这些用户产生的原创内容不仅包括记录自己旅游体验的攻略、游记,也包括帮助其他用户解决旅行疑惑的问答、点评等。通过这种互享型的内容互动模式,越来越多存在个性化旅行需求的用户在马蜂窝完成旅游消费决策的闭环。
为了更好地帮助用户提升决策效率,我们需要挖掘出那些拥有丰富的自由行经验,并且具有一定内容生产能力的旅行者,围绕内容增长、用户活跃制定相关策略。
如果只通过用户的等级划分来评估该用户的影响力,显然是存在问题的。我们都知道,用户等级作为用户激励体系中的一种方式,是对用户过往行为的认可,因此等级一般只会上升不会下降,这种特点导致:
用户核心输出能力无法得到有效量化:用户只要每天进行打卡、回复、评论等简单行为也会慢慢升级到高级别;
用户升级以后等级固化:例如用户很长时间没有登录,但从等级来看他的影响力依然很强;
无法感知用户的内容输出意愿:即使用户等级高且在近期有过登录行为,但对哪些话题感兴趣、是否存在生产内容的意愿我们无从感知。
为了解决以上问题,我们将内容贡献能力作为用户画像标签体系中的一个字段进行挖掘,并应用到马蜂窝很多业务当中,比如:
旅游问答邀请
马蜂窝问答可以看成是一种更快捷、简短、个性化的旅游攻略。我们可以圈定近期在该领域内容贡献丰富的、以及内容受欢迎的相关用户,推荐给提问者定向邀请回答,保证旅行者的问题能够快速、准确地被解答。
马蜂窝 KOL 挖掘
利用用户内容贡献能力标签,我们可以更精准地挖掘活跃的、专业的、热爱旅行并能生产高质量内容的 KOL,一方面可以在线上通过邀请入驻、内容推荐等方式,让这些资深旅行者的优质内容得到更多曝光;另一方面,可以将 KOL 的力量组合起来,转移到线下,用他们的亲身经验最简单地带动用户的直观认知,比如「马蜂窝指路人」等。
图:马蜂窝旅行家专栏 图:马蜂窝指路人俱乐部用户内容贡献能力模型
简单来说,就是从用户的的活跃度、在一定时间内的受欢迎度、输出意愿三个维度构建模型,从而对用户贡献能力进行测度,即:
用户内容贡献能力 = 用户的输出意愿 + 用户的活跃度 + 用户的受欢迎程度
1. 用户活跃度模型
RFM 模型我们很多人都不陌生,这是衡量用户价值和用户创利能力的经典工具。这里我们基于马蜂窝旅游社区的场景,将 RFM 模型的三个因素调整为:
A(Activity):用户活跃度
e^(-αt):最近一次访问时间距今天的时间衰减,采用指数衰减,其中 α 为衰减系数。这里利用指数衰减函数做为时间衰减因子,F*E 可以理解为用户的活跃的热度,时间衰减因子体现了用户活跃的热度随着时间逐渐衰减的过程。在马蜂窝场景下,通过对实际数据的调参,我们选择当时间 t 为一年(365)的时候衰减为最小值 0.0001,此时带入公式求出 α 的值。这里考虑的是用户一年未贡献任何的内容则意愿衰减至最低,求得 α 为 0.0189;
F(Frequency):用户在特定时间内的内容贡献频次。这里也是基于场景包含对游记、问答、攻略、笔记(图、文、视频结合)等所有类型内容的计算;
E(Engagements):用户最近一次贡献内容的类型,不同类型的 UGC 对应的值不同。例如产出一篇游记的难度以及内容的价值要高于回答一个用户的问题,和以图片、视频为主的笔记。经过在马蜂窝全站计算不同类型的文章在 UGC 数量占比,得出如下结论:游记的 E 值为 5,问答值为 2.5,笔记值为 3 。
2. 用户受欢迎程度
无论是什么形式的 UGC,被认可的方式通常基本都是通过其他用户的点赞、评论、收藏、分享几种方式。在马蜂窝,游记、问答、攻略、笔记等不同的文章形式欢迎度是不同的,比如以图片、视频形式为主要呈现形式的短内容(笔记 )虽然曝光较多,但是被点赞、评论等认可度却不如攻略或者游记这样的长文章。
因此这里通过分析社区中游记、问答、笔记等不同内容的被赞情况进行分析,算出一个用户欢迎程度最终综合得分和平均分,如下:
以上,W 代表的是用户受欢迎程度的综合得分,α、β、χ 分别代表不同类型内容的权重因子。这里通过计算全站不同形式的文章被赞的情况进行分析,得出 α:β:χ = 1:1.05:0.98 ,为了计算方便近似取 α、β、χ 均为1。
Travel 值表示游记的受欢迎程度,计算方式是通过点赞、收藏、分享、回复等相关特征,作为衡量一篇文章是否受欢迎的特征属性,然后通过 logistic 回归模型训练特征权重,如下:
Y 表示训练的文章是否是优质,W_i 代表权重,通过模型训练得出权重的值,N 代表文章类型,vote代表点赞,Fav 代表收藏,Comment 代表评论,Share 代表分享。最后求得权重以通过权重计算 Travel 来评判一篇游记受欢迎的程度。Answer、Note 的计算方式同上。经模型训练的得出结果如下(这里为了计算方便,四舍五入取值小数点后一位):
游记:w1:0.1,w2:0.5,w3:0.2,w4:0.4;
问答:w1:0.2,w2:0.9,w3:0.3,w4:0.6;
笔记:w1:0.1,w2:0.5,w3:0.3,w4:0.6;
3. 用户分享意愿
用户分享意愿是根据为用户打标签和 PageRank 来实现。将用户贡献内容标签作为用户兴趣的代表,然后结合实际场景,根据 PageRank 计算模型来分析话题与用户之间的关系,结合标签相似度计算向用户推荐其感兴趣、分享意愿高的内容。比如当用户贡献内容标签与当前话题的标签分类属于同一类的时候,我们可以理解为用户对当前同类标签的话题输出意愿是比较强的。如果用户还贡献过当前话题标签相类似的内容,用户的分享意愿会对应提高。如下:
D 代表用户的内容写作意愿程度,d_i 代表用户对某一类型的文章的贡献意愿(比如写作游记的意愿);
T_i 代表用户在过去时间生产的某一类型内容占用户分享的所有内容比值,其中 T_1 代表游记,T_2 代表问答,T_3 代表笔记;
C_i 代表用户写过的某一类型的文章其中出被评选为优质的数量,同理 C_1 为贡献优质游记的数量,C_2 为贡献优质问答数量,C_3 为贡献优质笔记数量。
N 代表阻尼系数,这里默认 N 值为 0.85。
综上,通过「用户的输出意愿 + 用户的活跃度 + 用户的受欢迎程度」,我们就可以给出相应的用户 UGC 等级,从而使用户的内容贡献能力得到客观、有效地量化。
小结
用户内容贡献模型充分考虑了用户等级设置中没有突出用户行为类型、时间衰减因素,以及没有充分挖掘用户兴趣的三个问题,提出了一种新的模型视角,并在马蜂窝的当前产品中充分应用。
未来,我们会继续优化算法,例如在模型中加入评论等多个维度的属性;在内容影响力方面加入内容画像的质量分+文章本身的得分,而不仅仅局限于优质、蜂首、采纳回答等等,来更加准确地挖掘用户内容贡献能力,完善马蜂窝用户标签体系。
本文作者:于允飛 & 张阳,马蜂窝推荐架构 & 用户画像研发工程师。
(题图来源:网络)
关注马蜂窝技术,找到更多你想要的内容