科普 | 大数据时代下的用户画像建立

2016-03-11 本文已影响2171人戰敭

一、什么是用户画像？
男，31岁，已婚，收入1万以上，爱美食，团购达人，喜欢红酒配香烟。
这样一串描述即为用户画像的典型案例。如果用一句话来描述，即：用户信息标签化。
如果用一幅图来展现，即：

用户画像建立
二、为什么需要用户画像
用户画像的核心工作是为用户打标签，打标签的重要目的之一是为了让人能够理解并且方便计算机处理，如，可以做分类统计：喜欢红酒的用户有多少？喜欢红酒的人群中，男、女比例是多少？

也可以做数据挖掘工作：利用关联规则计算，喜欢红酒的人通常喜欢什么运动品牌？利用聚类算法分析，喜欢红酒的人年龄段分布情况？

大数据处理，离不开计算机的运算，标签提供了一种便捷的方式，使得计算机能够程序化处理与人相关的信息，甚至通过算法、模型能够“理解” 人。当计算机具备这样的能力后，无论是搜索引擎、推荐引擎、广告投放等各种应用领域，都将能进一步提升精准度，提高信息获取的效率。

**三、如何构建用户画像 **
一个标签通常是人为规定的高度精炼的特征标识，如年龄段标签：25~35岁，地域标签：北京，标签呈现出两个重要特征：语义化，人能很方便地理解每个标签含义。这也使得用户画像模型具备实际意义。能够较好的满足业务需求。如，判断用户偏好。短文本，每个标签通常只表示一种含义，标签本身无需再做过多文本分析等预处理工作，这为利用机器提取标准化信息提供了便利。

人制定标签规则，并能够通过标签快速读出其中的信息，机器方便做标签提取、聚合分析。所以，用户画像，即：用户标签，向我们展示了一种朴素、简洁的方法用于描述用户信息。

3.1 数据源分析

构建用户画像是为了还原用户信息，因此数据来源于：所有用户相关的数据。

对于用户相关数据的分类，引入一种重要的分类思想：封闭性的分类方式。如，世界上分为两种人，一种是学英语的人，一种是不学英语的人；客户分三类，高价值客户，中价值客户，低价值客户；产品生命周期分为，投入期、成长期、成熟期、衰退期…所有的子分类将构成了类目空间的全部集合。

这样的分类方式，有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整，造成维度遗漏留下扩展性隐患。另外，不同的分类方式根据应用场景，业务需求的不同，也许各有道理，按需划分即可。

本文将用户数据划分为静态信息数据、动态信息数据两大类。

用户画像建立

静态信息数据

用户相对稳定的信息，如图所示，主要包括人口属性、商业属性等方面数据。这类信息，自成标签，如果企业有真实信息则无需过多建模预测，更多的是数据清洗工作，因此这方面信息的数据建模不是本篇文章重点。

动态信息数据

用户不断变化的行为信息，如果存在上帝，每一个人的行为都在时刻被上帝那双无形的眼睛监控着，广义上讲，一个用户打开网页，买了一个杯子；与该用户傍晚溜了趟狗，白天取了一次钱，打了一个哈欠等等一样都是上帝眼中的用户行为。当行为集中到互联网，乃至电商，用户行为就会聚焦很多，如上图所示：浏览凡客首页、浏览休闲鞋单品页、搜索帆布鞋、发表关于鞋品质的微博、赞“双十一大促给力”的微博消息。等等均可看作互联网用户行为。

本篇文章以互联网电商用户，为主要分析对象，暂不考虑线下用户行为数据（分析方法雷同，只是数据获取途径，用户识别方式有些差异）。

在互联网上，用户行为，可以看作用户动态信息的唯一数据来源。如何对用户行为数据构建数据模型，分析出用户标签，将是本文着重介绍的内容。

3.2 目标分析

用户画像的目标是通过分析用户行为，最终为每个用户打上标签，以及该标签的权重。如，红酒 0.8、李宁 0.6。

标签，表征了内容，用户对该内容有兴趣、偏好、需求等等。

权重，表征了指数，用户的兴趣、偏好指数，也可能表征用户的需求度，可以简单的理解为可信度，概率。

3.3 数据建模方法

下面内容将详细介绍，如何根据用户行为，构建模型产出标签、权重。一个事件模型包括：时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件，可以详细描述为：什么用户，在什么时间，什么地点，做了什么事。

什么用户：关键在于对用户的标识，用户标识的目的是为了区分用户、单点定位。

以上列举了互联网主要的用户标识方法，获取方式由易到难。视企业的用户粘性，可以获取的标识信息有所差异。

什么时间：时间包括两个重要信息，时间戳+时间长度。时间戳，为了标识用户行为的时间点，如，1395121950（精度到秒），1395121950.083612（精度到微秒），通常采用精度到秒的时间戳即可。因为微秒的时间戳精度并不可靠。浏览器时间精度，准确度最多也只能到毫秒。时间长度，为了标识用户在某一页面的停留时间。

什么地点：用户接触点，Touch Point。对于每个用户接触点。潜在包含了两层信息：网址 + 内容。网址：每一个url链接（页面/屏幕），即定位了一个互联网页面地址，或者某个产品的特定页面。可以是PC上某电商网站的页面url，也可以是手机上的微博，微信等应用某个功能页面，某款产品应用的特定画面。如，长城红酒单品页，微信订阅号页面，某游戏的过关页。

内容：每个url网址（页面/屏幕）中的内容。可以是单品的相关信息：类别、品牌、描述、属性、网站信息等等。如，红酒，长城，干红，对于每个互联网接触点，其中网址决定了权重；内容决定了标签。

注：接触点可以是网址，也可以是某个产品的特定功能界面。如，同样一瓶矿泉水，超市卖1元，火车上卖3元，景区卖5元。商品的售卖价值，不在于成本，更在于售卖地点。标签均是矿泉水，但接触点的不同体现出了权重差异。这里的权重可以理解为用户对于矿泉水的需求程度不同。即，愿意支付的价值不同。

标签权重

矿泉水 1 // 超市

矿泉水 3 // 火车

矿泉水 5 // 景区

类似的，用户在京东商城浏览红酒信息，与在品尚红酒网浏览红酒信息，表现出对红酒喜好度也是有差异的。这里的关注点是不同的网址，存在权重差异，权重模型的构建，需要根据各自的业务需求构建。

所以，网址本身表征了用户的标签偏好权重。网址对应的内容体现了标签信息。

什么事：用户行为类型，对于电商有如下典型行为：浏览、添加购物车、搜索、评论、购买、点击赞、收藏等等。

不同的行为类型，对于接触点的内容产生的标签信息，具有不同的权重。如，购买权重计为5，浏览计为1

红酒 1 // 浏览红酒

红酒 5 // 购买红酒

综合上述分析，用户画像的数据模型，可以概括为下面的公式：用户标识 + 时间 + 行为类型 + 接触点（网址+内容），某用户因为在什么时间、地点、做了什么事。所以会打上**标签。

用户标签的权重可能随时间的增加而衰减，因此定义时间为衰减因子r，行为类型、网址决定了权重，内容决定了标签，进一步转换为公式：

标签权重=衰减因子×行为权重×网址子权重

如：用户A，昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。

标签：红酒，长城
时间：因为是昨天的行为，假设衰减因子为：r=0.95
行为类型：浏览行为记为权重1
地点：品尚红酒单品页的网址子权重记为 0.9（相比京东红酒单品页的0.7）
假设用户对红酒出于真的喜欢，才会去专业的红酒网选购，而不再综合商城选购。

则用户偏好标签是：红酒，权重是0.95*0.7 * 1=0.665，即，用户Ａ：红酒 0.665、长城 0.665。

上述模型权重值的选取只是举例参考，具体的权重值需要根据业务需求二次建模，这里强调的是如何从整体思考，去构建用户画像模型，进而能够逐步细化模型。

四、总结：

本文并未涉及具体算法，更多的是阐述了一种分析思想，在计划构建用户画像时，能够给您提供一个系统性、框架性的思维指导。

核心在于对用户接触点的理解，接触点内容直接决定了标签信息。内容地址、行为类型、时间衰减，决定了权重模型是关键，权重值本身的二次建模则是水到渠成的进阶。模型举例偏重电商，但其实，可以根据产品的不同，重新定义接触点。

比如影视产品，我看了一部电影《英雄本色》，可能产生的标签是：周润发 0.6、枪战 0.5、港台 0.3。

最后，接触点本身并不一定有内容，也可以泛化理解为某种阈值，某个行为超过多少次，达到多长时间等。

比如游戏产品，典型接触点可能会是，关键任务，关键指数（分数）等等。如，积分超过1万分，则标记为钻石级用户。钻石用户 1.0。

大数据时代下的用户洞察

大数据是物理世界在网络世界的映射，是一场人类空前的网络画像运动。网络世界与物理世界不是孤立的，网络世界是物理世界层次的反映。数据是无缝连接网络世界与物理世界的DNA。发现数据DNA、重组数据DNA是人类不断认识、探索、实践大数据的持续过程。

大数据发展路径

网络画像分为行为画像、健康画像、企业信用画像、个人信用画像、静态产品画像、旋转设备画像、社会画像和经济画像等八类。
未来，人生的每个历程无时无刻不由数据驱动。

数据驱动人生
未来，设备全生命周期也将由数据驱动。

数据驱动汽车全生命周期（海略咨询）
四大引擎
场景引擎：个性化的核心，判断用户处于哪个购物环节，有什么样的购物目标；
规则引擎：业务的核心，结合用户、场景、算法输出数据和业务KPI，决定为用户推荐哪些内容；
算法引擎：计算用户之间的相似度、商品之间的相似度、用户对商品的评分、用户分群、热门排行……
展示引擎：将推荐内容以最佳的展示方式呈现在用户面前。

四大引擎

推荐引擎的核心是将购物流程数据化，而其前提是将用户数据化。如何将用户数据化呢？就是用户画像。

数据驱动

用户画像的目标、方式、组织、标准和验证等几个特点。

用户画像的特点

用户侧写可能更加准确的描述“用户画像”这个词，因为我们是通过有限的信息来描述一个人，而非通过全息相机照相的模式来描述一个人。

从技术角度来看，人在网络空间是一个比特流，人们认识人的方式发生重大改变，由物理空间的“相面”转变为网络空间比特流解析，更重要的是教会机器按照人类交给他的规则从这些比特流进行自动识别。能够从千万计的用户中找出金融诈骗者、恐怖分子等。
如何实现这一过程？这就需要一种类似成像技术中的像素来对人的特征进行刻画，这就是画像中的标签。

用户画像和标签

大数据用户画像其实就是对现实用户做的一个数学模型，在整个数学模型中，其核心是，怎么描述业务知识体系，而这个业务知识体系就是本体论，本体论很复杂，我们找到了一个特别朴素的实现，就是标签。建好模型以后，要在业务的实践中去检验，并且不断完善，不断丰富这个模型，来达到利用比特流对人越来越精确的理解。用户画像不是一个数学游戏，不是一个技术问题，实际上是一个业务问题。因为最核心的是你去如何理解用户，了解你的用户。它是技术与业务最佳的结合点，也是一个现实跟数据的最佳实践。

基于个人可以知道他所在的城市是在北京，男性，公司在百分点，喜欢的品类是男鞋、运动鞋，喜欢的品牌有耐克、阿迪达斯等等。每一个标签都有一个权重值。可以看到，耐克的权重值比阿迪达斯更高一些。

这幅图是通过云图的方式对百分点创始人/董事长兼CEO苏萌进行的特征画像。

0 百分点的画像标签体系包括：人口属性、上网特征、营销特征、内容偏好、兴趣偏好等。

以手机商品属性为例，包括品牌、品类、型号、上市时间、价格、颜色、网络、操作系统、分辨率、屏幕尺寸等等。

0
标签管理体系具有如下特性。

01
有多种标识方式对用户进行识别，这就像社会生活中的身份证号码一样，只不过换成了网络空间的手机号、Cookie、IMEI、Email、微博、微信账号等，在处理过程中，这些信息都是加密的，机器知道但人不知道。
百分点用户画像逻辑架构如下图所示，通过对电商、社区、移动应用、微博、微信等多种类别的数据源进行采集，然后对用户进行画像，最终在个性化推荐、用户洞察、精准营销等方面进行应用。百分点的数据源多且庞大，服务的客户超过了1500多家，覆盖行业超过了40多个。举例来说，一个网民，他在访问一个电商A，同时又访问了一个电商B，这两个电商本身的知识体系是不一样的。比如说这个用户他访问一双鞋，他在电商A上的品类可能是鞋-男鞋-运动鞋，在网站B上可能是运动-户外-男鞋，品类描述可能是不一样的。所以百分点打造了这么一个系统，叫商品画像系统。通过这个系统，所有的标签就有了一个标签规划，之后就可以去构建这个用户在全网的用户画像标签。用户画像只是一个起点，而不是一个结束。基于此，还可以打造一系列的服务，比如精准营销、个性化推荐等。

01
下图是用户画像的技术架构图。

我们可以看到总共分为五层：
第一是数据源；
第二层是数据采集服务，百分点有一堆数据采集服务，包括我们的数据探头，能够对用户的行为进行一个实时采集；
第三层是数据预处理，主要是结构化；
第四层是商品画像，这一块都是我们的用户画像服务。我们可以看到用户画像是分两大块，实时处理更偏重于预测用户画像的需求，离线处理更偏重于用户的长期偏好；
第五是统一的数据接口，还有就是集群，上面可以接入各种各样的应用。

01
下图是用户标签产出流程示例。

01
用户在互联网上的行为主要分为电商类、社交类和媒体类。每种行为差异很大，电商类行为包括浏览、搜索、添加购物车、收藏、支付等，而社交类则是点赞、转发、评论等。

01
接着下一步需要对页面标签进行抽取，在做这件事情之前需要训练模型，首先准备训练数据，通过标注和规则生成，再就是对于序列集做一个序列化处理。首先会得到一个弱模型，最终得到一个强模型，然后把自己的参数都保留下来。这个时候我们会加一个决策，如果说效果不太好的话，我们会进行下一轮的优化。当这个模型设置之后，我们就可以去做预测了。我们的预测总共分为四大块，包括输入、输入预处理、预测和产出。也就是说用户这个标签已经有了，这个标签对用户的信誉度是1还是0？这个时候就到了用户行为建模。用户行为建模的背后思想主要可以认为有两大块，成本越高行为权重越高，下单就比浏览更高一些，时间越近的行为权重越高，比如我今天看了一个手机，一定比我一周前看了一次电脑权重要高一些。我们可以按场景去分，首先是产生需求，再就是决策，然后是结束，百分点基于业务考虑，实行标签权重积累的机制。

01
这是我们的客户某航空公司的案例，项目目的是挖掘高价值旅客，希望通过分析旅客出行偏好优化运力资源。最终百分点帮他构建了5个标签大类，75个标签小类，数万个小标签，以下是当时的一些效果截图。

01
刚才讲的都是百分点已经做的事情，但是百分点做得还远远不够。接下来可能会在四大方面深入思考和实践：一是不同的场景，也就是说用户在家里和在办公环境下代表的偏好是不一样的；二是用户心理学特征，比如当一个用户看一件女装的时候，她这个时候是无聊去逛还是有目的的逛，反映在标签权重上是不一样的；三是让用户主动反馈反感点，我们强调了许多，一般都是在强调用户喜欢什么，但是用户不喜欢什么，我们做得还不够，我们应该让用户主动告诉我们他不喜欢什么，比如他不喜欢吃葱，他不喜欢吃羊肉串，这样我们预测的时候会准得多；四是用户的兴趣转移快速捕获，一开始我们使用的是一个半衰期的，而且按频率细分，我们是否可以按人去分？比如按访次去分？比如针对品类手机这个标签，对于手机发烧友，可能过了一年他依然会对手机比较感兴趣，但是对于像我这种，只有想购买的时候才去看，可能我两天不看，就表示这个兴趣已经衰减为零了。

科普 | 大数据时代下的用户画像建立

大数据时代下的用户洞察

猜你喜欢

热点阅读