intern

用户画像应用

2017-11-04  本文已影响159人  unbuilt

今天参加了CCF TF组织的大数据系统与应用讲座,听了关于小米用户画像的介绍,简要做个笔记。

数据来源:

用户画像1.0

基于统计的用户标签

基本的方法就是预测+统计

基础属性

状态属性

兴趣属性

金融属性

行为属性

电商属性

SNS社交

注: 小米有多看阅读,所以会了解用户的内容相关兴趣。

性别的预测

大约有5%的准确数据(用户填写的,用户填写的准确率可能在90%?95%以上,总体上用户不是乱填的)。

通过安装APP、访问网站、搜索词等特征预测用户性别,在Recall为99%时Precision为83%,如果降低Recall可以提高准确率>90%。

用户真实性预测

根据帐号登录、手机使用、电商购买、米币支付、MI Cloud使用、注册码信息等特征使用规则划分可信用户,黄牛从20%下降到10%以内。用户真实性预测也用于金融信用以及各种活动中。误杀率高(在知乎上看到有人吐糟)。

用户画像2.0

基于行为的事实标签

通过规则提取事件

构建庞大标签体系

反馈定向

  1. 粗选一组用户,进行实验,得到成功率。
  2. 根据进行反馈的用户的行为,去挑选更多的用户进行实验,很大可能得到更高的成功率(目标用户群更精准)。
  3. 直到业务部门满意成功率。

路径分析

用户画像2.1

外延扩展

App2Vec

对50万App生成200维分布式表征。
用于性别预测,AUC达到85%准确率,与之前方法相当,但是非常省事。

反馈定向结果与APP分类结果都达到现有水平。

App打开预测

Top@5的准确率为83%,这是一个还不能使用的水平。
选取每个用户的Top5的应用作为预测,Top@5的准确率是60%。
Top@10的准确率大于90%,但是没有意义。

行为预测

小米应该在做虚拟个人助理产品。一方面像其他类似产品一样,可能采用一些规则的方式,比如知道用户下班了,空气质量差,从而提前打开空气静化器。另一方面,在尝试预测用户的下一个行为,例如时间+Context(回家模式、睡眠模式、阅读模式、通话模式)得到阅读0.7,外卖0.3,开灯0.1。

上一篇下一篇

猜你喜欢

热点阅读