推荐系统架构-3 用户画像
一、推荐系统
二、阿里云智能推荐AIRec
三、用户画像介绍
1、用户画像的概念
用户画像是指根据用户的属性、偏好、生活习惯、行为等信息,抽象出来的标签化用户模型。
标签是通过对用户信息分析而来的高度精炼的特征标识。
通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。
用户画像是对现实世界中用户的建模,用户画像包含目标,方式,组织,标准,验证这5个方面。
目标:指的是描述人,认识人,了解人,理解人。
方式:分为非形式化手段,如使用文字、语言、图像、视频等方式描述人;形式化手段,即使用数据的方式来刻画人物的画像。
组织:指的是结构化、非结构化的组织形式。
标准:指的是使用常识、共识、知识体系的渐进过程来刻画人物,认识了解用户。
验证:依据侧重说明了用户画像应该来源事实、经得起推理和检验。
2、用户画像的作用
(1)精准营销:根据历史用户特征,分析产品的潜在用户和用户的潜在需求,针对特定群体,利用短信、邮件等方式进行营销。
(2)用户统计:根据用户的属性、行为特征对用户进行分类后,统计不同特征下的用户数量、分布;分析不同用户画像群体的分布特征。
(3)数据挖掘:以用户画像为基础构建推荐系统、搜索引擎、广告投放系统,提升服务精准度。
(4)服务产品:对产品进行用户画像,对产品进行受众分析,更透彻地理解用户使用产品的心理动机和行为习惯,完善产品运营,提升服务质量。
(5)行业报告&用户研究:通过用户画像分析可以了解行业动态,比如人群消费习惯、消费偏好分析、不同地域品类消费差异分析
3、用户画像的分类
画像方法
从应用角度来看,可以分为行为画像、健康画像、企业信用画像、个人信用画像、静态产品画像、旋转设备画像、社会画像和经济画像等。
4、用户画像需要用到哪些数据
(1)人口属性:包括性别、年龄等人的基本信息
(2)兴趣特征:浏览内容、收藏内容、阅读咨询、购买物品偏好等
(3)消费特征:与消费相关的特征
(4)位置特征:用户所处城市、所处居住区域、用户移动轨迹等
(5)设备属性:使用的终端特征等
(6)行为数据:访问时间、浏览路径等用户在网站的行为日志数据
(7)社交数据:用户社交相关数据
去哪儿网案例:
5、用户画像的主要应用场景
a)用户属性
b)用户标签画像
c)用户偏好画像
d)用户流失
e)用户行为
f)产品设计
g) 个性化推荐、广告系统、活动营销、内容推荐、兴趣偏好
6、用户画像标签体系的建立
6.1 标签体系
(1)标签分类
(2)标签级别
运算层级
事实标签:是通过对于原始数据库的数据进行统计分析而来的,比如用户投诉次数,是基于用户一段时间内实际投诉的行为做的统计。
模型标签:模型标签是以事实标签为基础,通过构建事实标签与业务问题之间的模型,进行模型分析得到。比如,结合用户实际投诉次数、用户购买品类、用户支付的金额等,进行用户投诉倾向类型的识别,方便客服进行分类处理。
预测标签:则是在模型的基础上做预测,比如针对投诉倾向类型结构的变化,预测平台舆情风险指数。
(3)标签命名&赋值
(4)标签属性
标签属性可以理解为针对标签进行的再标注,这一环节的工作主要目的是帮助内部理解标签赋值的来源,进而理解指标的含义。
1、固有属性:是指这些指标的赋值体现的是用户生而有之或者事实存在的,不以外界条件或者自身认知的改变而改变的属性。比如:性别、年龄、是否生育等。
2、推导属性:由其他属性推导而来的属性,比如星座,我们可以通过用户的生日推导,比如用户的品类偏好,则可以通过日常购买来推导。
3、行为属性:产品内外实际发生的行为被记录后形成的赋值,比如用户的登陆时间,页面停留时长等。
4、态度属性:用户自我表达的态度和意愿。比如说我们通过一份问卷向用户询问一些问题,并形成标签,如询问用户:是否愿意结婚,是否喜欢某个品牌等。当然在大数据的需求背景下,利用问卷收集用户标签的方法效率显得过低,更多的是利用产品中相关的模块做了用户态度信息收集。
5、测试属性:测试属性是指来自用户的态度表达,但并不是用户直接表达的内容,而是通过分析用户的表达,结构化处理后,得出的测试结论。比如,用户填答了一系列的态度问卷,推导出用户的价值观类型等。
6.2 标签体系结构分类
(1)结构化标签体系
简单地说,就是标签组织成比较规整的树或森林,有明确的层级划分和父子关系。
(2)非结构化标签体系
非结构化,就是各个标签就事论事,各自反应各自的用户兴趣,彼此之间并无层级关系,也很难组织成规整的树状结构。非结构化标签的典型例子,是搜索广告里用的关键词。还有Facebook用的用户兴趣词。
(3)半结构化标签体系
在用于效果广告时,标签设计的灵活性大大提高了。标签体系是不是规整,就不那么重要了,只要有效果就行。在这种思路下,用户标签往往是在行业上呈现出一定的并列体系,而各行业内的标签设计则以“逮住老鼠就是好猫”为最高指导原则,切不可拘泥于形式。
6.3 用户画像标签层级的建模方法
用户画像的核心是标签的建立,用户画像标签建立的各个阶段使用的模型和算法如下图所示。
原始数据层。对原始数据,我们主要使用文本挖掘的算法进行分析如常见的TF-IDF、TopicModel主题模型、LDA 等算法,主要是对原始数据的预处理和清洗,对用户数据的匹配和标识。
事实标签层。通过文本挖掘的方法,我们从数据中尽可能多的提取事实数据信息,如人口属性信息,用户行为信息,消费信息等。其主要使用的算法是分类和聚类。分类主要用于预测新用户,信息不全的用户的信息,对用户进行预测分类。聚类主要用于分析挖掘出具有相同特征的群体信息,进行受众细分,市场细分。对于文本的特征数据,其主要使用相似度计算,如余弦夹角,欧式距离等。模型标签层。使用机器学习的方法,结合推荐算法。
模型标签层。完成对用户的标签建模与用户标识。其主要可以采用的算法有回归,决策树,支持向量机等。通过建模分析,我们可以进一步挖掘出用户的群体特征和个性权重特征,从而完善用户的价值衡量,服务满意度衡量等。预测层。也是标签体系中的营销模型
预测层。这一层级利用预测算法,如机器学习中的监督学习,计量经济学中的回归预测,数学中的线性规划等方法。实习对用户的流失预测,忠实度预测,兴趣程度预测等等,从而实现精准营销,个性化和定制化服务。
不同的标签层级会考虑使用对其适用的建模方法,对一些具体的问题,有专门的文章对其进行研究。
7、用户画像的基本步骤
(1)用户画像的基本方向
(2)用户数据收集
(3)用户标签建模
另外,需要注意的是用户画像的时效性,构建画像的数据多为历史数据,但用户的行为、偏好等特征多会随着时间的推移而发生变化。