半个小时看懂用户画像
随着数据驱动精细化运营的应用场景越来越多,用户画像的使用越来越被重视,周边很多朋友们对用户画像也表现出极大的兴趣,但观察发现大部分人对用户画像还是停留在一知半解的认知状态。最近在工作之余,结合自己的工作经验和网上搜集的信息,整理了份关于用户画像的总结性文章,这篇文章在宏观上能够很好地描述用户画像的主要内容,本人希望它能够对用户画像感兴趣的朋友们有所帮助。
什么是用户画像?
用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户。
因此,用户画像绝对不会把一个真实的人的所有概念抽出来形成一个独立的样本。它只是抽出一些主要特性,形成一个和那个“真实的人”相似度极高的一个群体。这样说起来有点晦涩,可能有点不好理解。
举个例子来说,比如,蛋总,男,34岁,研究生学历。平时喜欢在微信读书和掌阅上阅读电子书。每周7天都会玩手机,平均每天4个小时以上,最近一直在京东网站上搜一下“数字化生存”这本书有没有库存。
那么上面的信息抽象出来的是什么?中年男子,高学历,爱学习,手机重度用户,最近想要买一本书。按照第一个模板,只能对应到一个样本。按照第二个抽象出来的模板,符合匹配的人在国内没有个百万也有几十万吧。
这就是用户画像。
用户画像有哪些主要应用场景?
构建用户画像,经常碰到常见的错误想法就是觉得画像维度的数据越多越好,画像数据越丰富越好,费了很大的力气进行画像后,却发现只剩下了用户画像,和业务相差甚远,没有办法直接支持业务运营,投入精力巨大但是回报微小,可以说得不偿失。
因此,构建用户画像时,必须从业务场景出发,采用MVP(最简化可实行产品)原则,以解决实际的业务问题为目的,小步试错,迭代快跑。比如说,进行用户画像要么是获取新用户,要么是提升用户体验,要么是挽回流失用户等有明确的业务目标 。那么,用户画像归纳起来到底有哪些主要的业务应用场景呢?
精准广告推送
最简单理解的,就是精准广告推送。根据用户特征,分析产品的潜在用户和用户的潜在需求,针对特定群体,利用广告、PUSH推送、短信、邮件等多种触达用户的方式进行精准营销。
比如,肥猫在天猫上开了个苹果手机旗舰店,有iPhone XS商品出售,但是比官方指导价贵了1000块(官方还未出售)。同时肥猫又想以高价卖出,于是借助阿里的达摩盘平台精准找到"想买iPhone XS"的这个人群,好了,假如现在蛋总和老衲都符合精准人群标准,于是开始精准投送。
对于老衲这种生活比较富裕的,又很喜欢玩苹果新机的,精准推送了一条广告,老衲在天猫APP上的广告栏就会看到一条"iPhone XS已到货“的广告,老衲点进去(当然是肥猫的店铺),咬了咬牙,加价1000块买了一台,于是肥猫的目的达到了。
对于蛋总有孩子,家庭负担也比较重,但又很想给老婆购买个iPhone XS,当他看到广告栏显示"iPhone XS已到货“的广告,蛋总点进去一看,觉得太贵,可能因为钱不够,买不起。然后支付宝借呗就会给蛋总投送“点击借款,15分钟到账”的贷款广告,如果蛋总贷了款,再重新投放"iPhone XS已到货“的广告。这时不但肥猫达到了目的,支付宝借呗也找到了优秀的放贷目标。
用户特征分析
根据用户的属性、行为特征对用户进行分类后,统计不同特征下的用户数量、分布;分析不同用户画像群体的分布特征。
在这方面的应用场景,QuestMobile公众号上的报告经常会有各种人群特征分析。比如,QuestMobile研究院近期对新中产人群有深入的研究,他们定义,25-40岁之间的,身处于一二三线城市,在移动互联网中的消费能力和意愿均处于中高水平的这部分人群,为新中产人群。
针对这个人群,他们有哪些分布特征?研究结论表明,现阶段新中产以80后为主,他们作为社会的中坚力量,工作生活已进入稳定器;接近7成的拥有房产,12.8%用户拥有私家车。
个性化推荐
以用户画像为基础构建推荐系统、搜索引擎、广告投放系统,提升服务精准度。
比如说,新闻的个性化推荐,就是基于对用户的基本信息和用户历史行为数据进行分析,构建相应的用户画像,建立用户的偏好模型,得到用户的特征库,同时融合新闻的内容,标题,领域,热度,时间等特征,预测该用户对相应新闻的行为,并得到用户点击该新闻的概率。得到某一用户对众多新闻的点击概率后,使用Softmax归一化方法对其进行处理,获得用户点击概率较高的新闻,并推荐给用户。
另外,美图旗下的美拍APP个性化推荐重有三个应用场景,美拍直播,实时的在线个性化排序业务;美拍热门,典型的Feed流产品,用户可在热门Feed流中不断翻页滚动,探索和消费自己可能感兴趣的内容;播放详情页下的”猜你喜欢“模块,用于推荐相似视频。这些个性化的推荐基础就是了解用户的兴趣偏好,从而理解用户,进行精准推荐。其用户画像主要包含基础用户特征(时长、分辨率、视频类型、拍摄类型、特效类型、音乐曲目等)、视觉特征(人物性别、身材、发型、颜值等),文本特征(封面文字、描述关键词、评论情感极性等),交互特征(点赞数、点赞率、评论数、评论率、分享数、分享率等)。
提升用户体验
产品经理或者产品运营人员,需要常常对产品进行用户画像,从而更好的对产品进行受众分析,更透彻地理解用户使用产品的心理动机和行为习惯,完善产品运营,提升服务质量。
产品按需设计,就是一个用户画像服务产品典型的应用场景。它是改变原有的先设计、再销售的传统模式,在研发新产品前,先基于产品期望定位,在内部数据分析平台中提取用户画像数据分析该用户群体的偏好,有针对性的设计产品,从而改变原先新产品高失败率的窘境,增强销售表现。
比如,想要研发一款智能手表,面向28-35岁的年轻男性,通过在企业内部数据中进行分析,发现材质=“金属”、风格=“硬朗”、颜色=“黑色”/"深灰色"、价格区间=“中等”的偏好比重最大,那么就给新产品的设计提供了非常客观有效的决策依据。
大数据风控
这个方向在电商、金融、初创公司应用的场景很多,如何避免或者降低羊毛党、黄牛、欺诈对业务的风险和用户损失,保障正常用户和公司的利益,是这些个行业永恒的话题。
比如说,可以利用用户画像对个人及企业级信用评分进而做到欺诈识别,现在芝麻信用就是个很好的例子,利用它做用户征信可以有效提升用户体验,降低企业成本与风险,通过芝麻信用可以实现共享单车免押金,酒店免押金预订后付费等活动。
总的来说,用户画像是精细化运营、数据化运营的需求产物,大数据的本质是消除不确定性,结合大数据可以更加精准的分析了解用户特征/用户行为,以便更好更多地服务于大多数用户。
从用户角度而言,用户画像可以应用于用户的整个服务生命周期:用户拉新、提升用户体验、个性化推荐及交叉推荐以便提高用户转化率、用户挽留、用户激励等等。
从产品角度而言,用户画像可以应用于产品的整个生命周期:包括优惠券发放、反欺诈、动态调价、用户与服务产品及商家的智能匹配、PUSH消息推送等等。
用户画像需要用到哪些数据?
一般来说,根据具体的业务内容,会有不同的数据,不同的业务目标,也会使用不同的数据。在互联网领域,用户画像数据可以包括以下内容:
(1)人口属性:包括性别、年龄、家庭状况、婚姻、职业等基本信息
(2)兴趣特征:浏览内容、收藏内容、阅读资讯、购买物品偏好等信息
(3)消费特征:与消费商品或者服务相关的特征等信息
(4)位置特征:用户所处城市、所处居住区域、用户移动轨迹等信息
(5)设备属性:使用的终端特征,如手机品牌、机型、分辨率等信息
(6)行为数据:访问时间、浏览路径等用户在网站的行为日志数据
(7)社交数据:用户社交行为等相关数据
以某综合电商平台为例,其画像数据主要维度如下所示。用户画像数据来源广泛,这些数据是全方位了解用户的基础。
如何构建用户画像?
第一步,ID-Mapping
在构建精准用户画像时,经常会面临这样一个问题:日志采集不能成功地收集用户的所有ID,且每条业务线有各自定义的UID用来标识用户,从而造成了用户ID的碎片化。因此,为了做用户标签的整合,用户ID之间的强打通(亦称为ID-Mapping),是构建用户画像的第一步。
PC时代,打通用户行为数据的重任是在Cookie上,匹配率不是特别理想。移动互联网时代,则落在手机设备ID上,设备ID相对易获取,且稳定,匹配率高。整个手机行业,Android和苹果等两个操作系统是主流,但由于Android和苹果的系统开放程度不同,所能获取到的设备ID权限也不同,苹果比起Android要严格得多。接下来,简要介绍一下Android和苹果设备常见的ID:
IMEI,即通常所说的手机序列号、手机“串号”,用于在移动电话网络中识别每一部独立的手机等行动通讯装置;序列号共有15位数字,前6位(TAC)是型号核准号码,代表手机类型。接着2位(FAC)是最后装配号,代表产地。后6位(SNR)是串号,代表生产顺序号。最后1位(SP)一般为0,是检验码,备用。
MAC,一般代指MAC位址,为网卡的标识,用来定义网络设备的位置。
IMSI,储存在SIM卡中,可用于区别移动用户的有效信息;其总长度不超过15位,同样使用0~9的数字。其中MCC是移动用户所属国家代号,占3位数字,中国的MCC规定为460;MNC是移动网号码,最多由两位数字组成,用于识别移动用户所归属的移动通信网;MSIN是移动用户识别码,用以识别某一移动通信网中的移动用户。
Android ID,是系统随机生成的设备ID 为一串64位的编码(十六进制的字符串),通过它可以知道设备的寿命(在设备恢复出厂设置或刷机后,该值可能会改变)。
IDFA ,是苹果推出来的用于广告标识的设备ID,同一设备上的不同APP所获取的IDFA是一致的;但是用户可以自主更改IDFA,所以IDFA并不是和设备一一绑定的。
第二步,构建标签体系
什么是标签体系?
要理解标签体系,首先来理解一下什么是标签?标签是对某一类特定群体或对象的某项特征进行的抽象分类和概括,其值(标签值)具备可分类性。
对于“人”这类群体,可将“男”、“女”这类特征进行抽象概括,统称为“性别”,“性别”即一个标签。
对于“手机”这类对象,可将“骁龙835”、“骁龙845”这类特征进行抽象概括,统称为“手机处理器”,“手机处理器”即一个标签。
那么标签体系,就是你要把用户分到多少个类标签里面去,每个用户既可以分到多个类,也可以分到一个类上。这些类标签相互联系,共同组成了标签体系。
目前主流的标签体系都是层次化的,如下图。首先标签分为几个大类,每个大类下进行逐层细分。在构建标签时,只需要构建最下层的标签,就能够映射到上面两级标签。上层标签都是抽象的标签集合,一般没有实用意义,只有统计意义。例如我们可以统计有人口属性标签的用户比例,但用户有人口属性标签本身对广告投放没有任何意义。
用于广告投放和精准营销的一般是底层标签,对于底层标签有两个要求:一个是每个标签只能表示一种含义,避免标签之间的重复和冲突,便于计算机处理;另一个是标签必须有一定的语义,方便相关人员理解每个标签的含义。
下表列举了各个大类常见的底层标签。
最后说说各类标签构建的优先级。构建的优先级需要综合考虑业务需求、构建难易程度等,业务需求各有不同,这里介绍的优先级排序方法主要依据构建的难易程度和各类标签的依存关系。
基于原始数据首先构建的是事实标签,事实标签可以从数据库直接获取(如注册信息),或通过简单的统计得到。这类标签构建难度低、实际含义明确,且部分标签可用作后续标签挖掘的基础特征(如产品购买次数可用来作为用户购物偏好的输入特征数据)。
事实标签的构造过程,也是对数据加深理解的过程。对数据进行统计的同时,不仅完成了数据的处理与加工,也对数据的分布有了一定的了解,为高级标签的构造做好了准备。
模型标签是标签体系的核心,也是用户画像工作量最大的部分,大多数用户标签的核心都是模型标签。模型标签的构造大多需要用到机器学习和自然语言处理技术。
最后构造的是高级标签,高级标签是基于事实标签和模型标签进行统计建模得出的,它的构造多与实际的业务指标紧密联系。只有完成基础标签的构建,才能够构造高级标签。构建高级标签使用的模型,可以是简单的数据统计,也可以是复杂的机器学习模型。
第三步,构建用户画像
通常我们把用户画像分为三类,这三类有较大的差异,构建时用到的技术差别也很大。
第一类是人口属性,这一类画像比较稳定,一旦建立很长一段时间基本不用更新,标签体系也比较固定;
第二类是兴趣属性,这类画像随时间变化很快,画像有很强的时效性,标签体系也不固定;
第三类是地理属性,这一类画像的时效性跨度很大,如GPS轨迹画像需要做到实时更新,而常住地属性一般可以几个月不用更新,挖掘的方法和前面两类也大有不同。
1.人口属性画像
人口属性包括年龄、性别、学历、人生阶段、收入水平、消费水平、所属行业等。这些属性基本是稳定的,构建一次可以很长一段时间不用更新,画像的有效期都在一个月以上。
很多产品(如QQ、淘宝、支付宝等)都会引导用户填写基本信息,这些信息就包括年龄、性别、收入等大多数的人口属性,但完整填写个人信息的用户只占很少一部分。而对于无社交属性的产品(如输入法、团购APP、视频网站等)用户信息的填充率非常低,有的甚至不足5%。
在这种情况下,一般会用填写了信息的这部分用户作为样本,把用户的行为数据作为特征训练模型,对无属性的用户进行人口属性的预测。这种模型把用户的标签传给和他行为相似的用户,可以认为是对人群进行了标签扩散,因此常被称为人群扩散模型(Lookalike模型)。
经验表明,对于预测性别这样的二分类模型,如果行为的区分度较好,一般准确率和覆盖率都可以达到70%左右。
对于其他人口属性标签,只要有一定的样本标签数据,并找到能够区分标签分类的用户行为特征,就可以构建人群扩散模型。其中使用的技术方法主要是机器学习中的分类技术,常用的模型有LR、FM、SVM、GBDT等。
2.兴趣画像
兴趣画像是互联网领域使用最广泛的画像,互联网广告、个性化推荐、精准营销等各个领域最核心的标签都是兴趣标签。兴趣画像主要是从用户海量行为日志中进行核心信息的抽取、标签化和统计,因此在构建用户兴趣画像之前需要先对用户有行为的内容进行内容建模。
内容建模需要注意粒度,过细的粒度会导致标签没有泛化能力和使用价值,过粗的粒度会导致没有区分度。
为了保证兴趣画像既有一定的准确度又有较好的泛化性,通常会构建层次化的兴趣标签体系,使用中同时用几个粒度的标签去匹配,既保证了标签的准确性,又保证了标签的泛化性。下面用新闻的用户兴趣画像举例,介绍如何构建层次化的兴趣标签。
比如,内容建模,拿新闻数据来说,它是一种非结构化得数据源,首先需要人工构建一个层次的标签体系。
首先,这是一篇体育新闻,体育这个新闻分类可以表示用户兴趣,但是这个标签太粗了,用户可能只对篮球感兴趣,体育这个标签就显得不够准确。
其次,可以使用新闻中的关键词,尤其是里面的专有名词(人名、机构名),如“哈登”、“保罗”、“火箭”,这些词也表示了用户的兴趣。关键词的主要问题在于粒度太细,如果一天的新闻里没有这些关键词出现,就无法给用户推荐内容。
最后,希望有一个中间粒度的标签,既有一定的准确度,又有一定的泛化能力。于是我们尝试对关键词进行聚类,把一类关键词当成一个标签,或者把一个分类下的新闻进行拆分,生成像“篮球”这种粒度介于关键词和分类之间的主题标签。最后可以使用文本主题聚类完成主题标签的构建。
因此就完成了对新闻内容从粗到细的“分类-主题-关键词”三层标签体系内容建模,新闻的三层标签。
既然主题的准确率和覆盖率都不错,只使用主题不就可以了嘛?为什么还要构建分类和关键词这两层标签呢?这么做是为了给用户进行尽可能精确和全面的内容推荐。
当用户的关键词命中新闻时,显然能够给用户更准确的推荐,这时就不需要再使用主题标签;而对于比较小众的主题(如体育类的冰上运动主题),若当天没有新闻覆盖,就可以根据分类标签进行推荐。层次标签兼顾了对用户兴趣刻画的覆盖率和准确性。
3.地理位置画像
地理位置画像一般分为两部分:一部分是常驻地画像;一部分是GPS画像。两类画像的差别很大,常驻地画像比较容易构造,且标签比较稳定,GPS画像需要实时更新。
常驻地包括国家、省份、城市三级,一般只细化到城市粒度。常驻地的挖掘基于用户的IP地址信息,对用户的IP地址进行解析,对应到相应的城市,对用户IP出现的城市进行统计就可以得到常驻城市标签。
用户的常驻城市标签,不仅可以用来统计各个地域的用户分布,还可以根据用户在各个城市之间的出行轨迹识别出差人群、旅游人群等,如下图所示是人群出行轨迹的一个示例。
GPS数据一般从手机端收集,但很多手机APP没有获取用户GPS信息的权限。能够获取用户GPS信息的主要是百度地图、滴滴打车等出行导航类APP,此外收集到的用户GPS数据比较稀疏。
百度地图使用该方法结合时间段数据,构建了用户公司和家的GPS标签。此外百度地图还基于GPS信息,统计各条路上的车流量,进行路况分析,如下图是北京市的实时路况图,红色表示拥堵线路。
第四步,用户画像评估和使用
人口属性画像的相关指标比较容易评估,而兴趣画像的标签比较模糊,兴趣画像的人为评估比较困难,对于兴趣画像的常用评估方法是设计小样本的A/B-test进行验证。
可以筛选一部分目标检测标签用户,给这部分用户进行和标签相关的推送,看标签用户对相关内容是否有更好的反馈。
例如,在新闻推荐中,给用户构建了兴趣画像,从体育类兴趣用户中选取一小批用户,给他们推送体育类新闻,如果这批用户的点击率和阅读时长明显高于平均水平,就说明标签是有效的。
1.效果评估
用户画像效果最直接的评估方法就是看其对实际业务的提升,如互联网广告投放中画像效果主要看使用画像以后点击率和收入的提升,精准营销过程中主要看使用画像后销量的提升等。
但是如果把一个没有经过效果评估的模型直接用到线上,风险是很大的,因此需要一些上线前可计算的指标来衡量用户画像的质量。
用户画像的评估指标主要是指准确率、覆盖率、时效性等指标。
准确率
标签的准确率指的是被打上正确标签的用户比例,准确率是用户画像最核心的指标,一个准确率非常低的标签是没有应用价值的。
准确率的评估一般有两种方法:一种是在标注数据集里留一部分测试数据用于计算模型的准确率;另一种是在全量用户中抽一批用户,进行人工标注,评估准确率。
由于初始的标注数据集的分布和全量用户分布相比可能有一定偏差,故后一种方法的数据更可信。准确率一般是对每个标签分别评估,多个标签放在一起评估准确率是没有意义的。
覆盖率
标签的覆盖率指的是被打上标签的用户占全量用户的比例,我们希望标签的覆盖率尽可能的高。但覆盖率和准确率是一对矛盾的指标,需要对二者进行权衡,一般的做法是在准确率符合一定标准的情况下,尽可能的提升覆盖率。
我们都希望覆盖尽可能多的用户,同时给每个用户打上尽可能多的标签,因此标签整体的覆盖率一般拆解为两个指标来评估。一个是标签覆盖的用户比例,另一个是覆盖用户的人均标签数,前一个指标是覆盖的广度,后一个指标表示覆盖的密度。
时效性
有些标签的时效性很强,如兴趣标签、出现轨迹标签等,一周之前的就没有意义了;有些标签基本没有时效性,如性别、年龄等,可以有一年到几年的有效期。对于不同的标签,需要建立合理的更新机制,以保证标签时间上的有效性。
其他指标
标签还需要有一定的可解释性,便于理解;同时需要便于维护且有一定的可扩展性,方便后续标签的添加。这些指标难以给出量化的标准,但在构架用户画像时也需要注意。