【原创】关于用户画像系统的思考
Finger点评:今年我负责公司用户画像系统的建设,在此过程中不断思考,也不断有新的收获和困惑。这里记录的是我的探索过程,在不涉及机密的情况下做一些原则性的探讨。
1. 一期产品的阶段性成果
今年5月初公司用户画像系统完成了一期产品的上线,成功实现了“标签管理”、“依据标签生成不同组合用户数量统计”、“依据标签生成多个单一维度用户数量分布图”、“标签雷达”四大类产品功能,从而初步展示了利用用户标签来构建用户画像的可行性。
2. 一期产品面临的挑战
从产品上线至今,与用户画像相关的事项共3件,下表具体分析一期产品面临的挑战:
3. 如何解决上述挑战
3.1 工作思路
1、以业务为导向
以业务为导向,就是要让用户画像系统提供的信息能够跟上业务发展的节奏。这也是改变之前系统设计以研究为导向的一项重大转变。据此,可以从以下两方面来提升用户画像系统的表现:1)注重标签定义的实际业务意义 2)注重标签数据更新的实效性。
注重标签定义的实际业务意义,就是要打破原来把用户画像看作一个完整整体的概念,而是要从实际业务出发,分析它们已经有哪些数据可以标签化(关键指标),标签化的数据反映了什么业务现象(以业务理解为起点)。具体到每个项目,就是在一开始就与业务部门项目负责人达成共识,需要哪些数据,以及需要以何种方式呈现。同时,在项目实施过程中不断微调整项目目标,使其更好地符合业务实际。
注重数据的实效性,就是要改变原来一个月更新一次用户标签的机制,而采用一种实时的,自动化的机制来生成和更新标签。因为“天下武功,唯快不破”,如果我们的用户画像系统不能进化的比产品迭代更快,就难以成为一个真正高效有用的工具。这也是以业务为导向的另一项重大转变。
上述自动化机制包括了自动触发、自动处理和自动报警三个关键节点,其逻辑流程图如下所示。其最终目标是帮助业务负责人实现对特定用户的特定行为的连续、不间断追踪,并在达到特定判断标准后及时报警,以方便精细化用户运营。
当然,为了实现实效性的显著提升,我们需要在技术可行性方面进行充分论证。
2、千人千面
一期用户画像系统在设计思想上的另外一个误区就是总是试图归纳出一个或几个典型用户,包含了若干典型用户特征。为此,我们尝试从各个维度分析比较其中哪种条件的用户占比较大,尝试分析样本与总体的差异。
但在实际工作中我们发现,由于标签维度的不断增加,导致人工从多个维度分析并提取特征标签的难度也急剧增加。
在这种情况下,我们有两种应对方法,一种就是利用聚类分析等机器学习算法,强行分出几类用户(后续对不同特征组合的解释仍然基于业务理解,其难度随着维度的增加也是急剧增加,很容易陷入死循环);另一种方法就是退而求其次接受千人千面的现实,即每个用户的特征是由他/她所拥有的标签特征所定义的。再辅之以自动化处理机制,达到实时响应的效果。相比而言,后者在实现起来要容易的多。
3、让数据为自己发声
由于上文提到的对多元数据分析的困难度,为了降低数据使用门槛,我们应该尽量使用视觉化的方式来呈现结果,避免全部使用数字或统计推断。根据这样的想法,当需要整体揭示数据之间的关系时,我们可以选择可视化呈现方式,其中标签云就是一种很直观的图形。下图为标签云示例。
4、用户全渠道ID打通
大数据时代,没有无用的数据,只有没被好好利用的数据。在一篇网络文章中提到:用户与企业的触点非常多,譬如手机、邮箱、Cookie等等。我们要将同一个用户的这些多个触点进行打通,需要站在上帝的视角。我们可以把用户ID视为图中的顶点,如果用户的两个触点在同一个场景出现,譬如用邮箱登陆,那么我们会在用户的邮箱和Cookie用一条边进行连接,从而构建一张图。
文章具体还提到了强打通和模糊拉通多种方法来实现全渠道ID打通。具体可参考《大数据用户画像方法与实践》。
四、总结
一期用户画像系统做为我们建立大数据用户画像的首次尝试,提供了很多可供思考的点。简而言之,我们认为业务数据是可以按照一定的规则被标签化的,并通过标签组合,生成多种分析角度,并随着标签数量的增加而不断增加分析角度。
但是,成也萧何,败也萧何。我们过于强调了分析角度的多元化,而弱化了分析方法的开发,导致实际使用的功能较弱。而这一缺陷,将有望在二期产品 (更加强调业务导向) 上线后得到明显改善。