用户画像应用

2017-11-04 本文已影响159人 unbuilt

今天参加了CCF TF组织的大数据系统与应用讲座，听了关于小米用户画像的介绍，简要做个笔记。

数据来源：

手机、电视、生态链产品等式硬件
MIUI、互娱、云服务、金融等服务
小米商城、小米之家、全网电商等

用户画像1.0

基于统计的用户标签

基本的方法就是预测+统计

基础属性

性别/年龄
学历/职业
地域/语言
设备数量/型号/系统
帐号真实性/米粉

状态属性

设备活跃状态
在校/工作状态
结婚/育儿状态
有车/有房
频繁出差

兴趣属性

兴趣爱好（一级/二级）

金融属性

收入/支出
个人信誉/购买力
消费（小米网/游戏/图书/主题/小米生活）

行为属性

App使用行为
拨打电话（黄页）
搜索和浏览行为
视频/阅读行为

电商属性

电商团购
品牌偏好

SNS社交

SNS社交

注: 小米有多看阅读，所以会了解用户的内容相关兴趣。

性别的预测

大约有5%的准确数据（用户填写的，用户填写的准确率可能在90%?95%以上，总体上用户不是乱填的）。

通过安装APP、访问网站、搜索词等特征预测用户性别，在Recall为99%时Precision为83%，如果降低Recall可以提高准确率>90%。

用户真实性预测

根据帐号登录、手机使用、电商购买、米币支付、MI Cloud使用、注册码信息等特征使用规则划分可信用户，黄牛从20%下降到10%以内。用户真实性预测也用于金融信用以及各种活动中。误杀率高（在知乎上看到有人吐糟）。

用户画像2.0

基于行为的事实标签

通过规则提取事件

搜索
跑步
拍照
注册
安装
下载
出行
购物
阅读
通话
游戏
搬家
重置
视频
交友
打车

构建庞大标签体系

聚合各业务已有标签
尽量使用已有资源
人工：例如构建售后相关标签

反馈定向

粗选一组用户，进行实验，得到成功率。
根据进行反馈的用户的行为，去挑选更多的用户进行实验，很大可能得到更高的成功率（目标用户群更精准）。
直到业务部门满意成功率。

路径分析

用于用户真实性判定。
用户的事件，进行频繁项集分析，并没有作用。
路径分析可以起作用，有效降低误杀率（人工规则很难组合多个维度的规则，往往有一个维度超限就作出判定。路径分析可以考虑多种维度及参数的组合。）。
使用路径分析生成一组组规则，人工审核规则，主要指标：错误率、覆盖率。

用户画像2.1

外延扩展

App2Vec

对50万App生成200维分布式表征。
用于性别预测，AUC达到85%准确率，与之前方法相当，但是非常省事。

反馈定向结果与APP分类结果都达到现有水平。

App打开预测

Top@5的准确率为83%，这是一个还不能使用的水平。
选取每个用户的Top5的应用作为预测，Top@5的准确率是60%。
Top@10的准确率大于90%，但是没有意义。

行为预测

小米应该在做虚拟个人助理产品。一方面像其他类似产品一样，可能采用一些规则的方式，比如知道用户下班了，空气质量差，从而提前打开空气静化器。另一方面，在尝试预测用户的下一个行为，例如时间+Context（回家模式、睡眠模式、阅读模式、通话模式）得到阅读0.7，外卖0.3，开灯0.1。