呆鸟的Python数据分析大数据程序员

用户画像(二)|为“一面APP”数据建模

2018-01-12  本文已影响299人  小怪聊职场

在前一篇文章中我制定了用户画像的计划,第一部分就是数据建模。以“一面APP”为例。

一、一面产品介绍

话题、主题、专辑、圈子

为了更好地理解如何为一个产品做数据建模,我这边先对一面APP做一个简单的介绍。我们的愿景是遇见你想遇见的世界。

1.0、创建主题

一大波机器人配件在路上...

机器人配件

1.1、动态频道

首先是动态频道,里面有我的订阅和我的消息两个Tab。

动态频道

1.2、圈子频道

创建圈子邀请好友加入圈子,实现人与人之间的联系,通过发表话题实现人与人之间的社交。

圈子频道

1.3、发现频道

遇见你想遇见的信息流,这块后面也会根据更精准的用户画像进行匹配信息。

发现频道

1.4、我的频道

我订阅的主题、我创建的主题、我订阅的专辑、我创建的专辑以及我的收藏。

我的频道

好了,广告打完之后,让我们从“一面APP”产品中提取对象和标签。

二、为一面APP数据建模

2.1、为“一面APP”提取对象、对象的标签以及标签的权重

一面APP最重要的对象就是内容,除此之外还有“圈子”、“主题”、“专辑”及“机器人配件”等对象。
文字类的标签需要根据算法提取,其它非文字类的标签根据每个产品的业务不同进行确定。
涉及到第三方平台的可以把第三方平台的用户画像纳入参考指标,但是需要在此基础上乘以10%。
权重值1为满分。

对象 特性 标签 权重 备注
内容 文字 XXX X 算法提取文章内容的关键词及关键词的权重
圈子 成员是一男一女 恋爱中 0.8
圈子 成员是一男一女 已结婚 0.6
圈子 成员是两男 同志 0.8
圈子 成员是两男 两兄弟 0.7
圈子 成员是两女 多姐妹 0.7
机器人微博内容 用户为马化腾 行业人物 0.6 通过百度百科获取用户标签
机器人微博内容 用户为马化腾 经济人物 0.6 通过百度百科获取用户标签
机器人微博内容 用户为马化腾 人物 0.6 通过百度百科获取用户标签
机器人微博内容 用户为马化腾 互联网人物 0.6 通过百度百科获取用户标签
机器人知乎 用户为helloworlds 互联网 0.8 通过知乎用户主页的所在行业和职业经验
机器人知乎 用户为helloworlds IT 工程师 0.8 通过知乎用户主页的所在行业和职业经验

2.2、为“一面APP”确定每个对象在不同位置的权重

权重设定的原则为:与用户的关系越直接,关系越密切,权重越高。
类似的,动态我的订阅中更新内容信息流的权重大于动态我的消息里面的内容;我的收藏的内容权重大于我创建主题的内容的权重。

对象 位置 权重 备注
内容 动态频道-内容 0.5 权重值1为分数
内容 动态频道-订阅的主题-内容 0.6 权重值1为分数
内容 圈子频道-圈子列表-内容 0.7 权重值1为分数
内容 发现频道-最热内容-内容 0.5 权重值1为分数
内容 发现频道-热门主题-内容 0.6 权重值1为分数
内容 我的频道-我订阅的主题-主题内页-内容 0.8 权重值1为分数
圈子 圈子频道-圈子列表 0.8 权重值1为分数
圈子 主题内页-收入的圈子-圈子 0.9 权重值1为分数

2.3、为“一面APP”确定对每个对象进行不同行为的权重

对象 行为 权重 备注
内容 浏览 0.5
内容 点赞 0.6
内容 评论 0.7
内容 收藏 0.9
内容 分享 0.8
圈子 浏览 0.5
圈子 加入 0.8
圈子 创建 1.0
圈子 分享 0.8

2.4、为“一面APP”确定时间衰减值

这里的时间粒度,与产品的不同阶段有很大的关系。

时间 时间分类 衰减值 备注
最后时间 1小时前 0.95 最后操作的时间
最后时间 6小时前 0.85 最后操作的时间
最后时间 12小时前 0.75 最后操作的时间
最后时间 24小时前 0.65 最后操作的时间
总时长 0-1天 0.5 最后操作时间-最初操作时间
总时长 1-7天 0.6 最后操作时间-最初操作时间
总时长 7-30天 0.7 最后操作时间-最初操作时间
总时长 30-90天 0.8 最后操作时间-最初操作时间
总时长 90-天 0.9 最后操作时间-最初操作时间
平均启动时间间隔 0-1天 0.9 总时长/启动次数
平均启动时间间隔 1-7天 0.8 总时长/启动次数
平均启动时间间隔 7-30天 0.7 总时长/启动次数
平均启动时间间隔 30-90天 0.6 总时长/启动次数
平均启动时间间隔 90-天 0.5 总时长/启动次数

三、为一面APP数据建模

下面要做的就是通过算法为文章打上标签。下一篇文章介绍。

上一篇 下一篇

猜你喜欢

热点阅读