星巴克项目 Data Scientist Capstone -

2020-06-07  本文已影响0人  柳媛Lynn

一、数据集

背景概述

这个数据集是模拟 Starbucks rewards 移动 app 上,某一种饮品的推送和用户消费数据。
每隔几天,星巴克会向 app 的用户发送一些推送,这个推送可能是饮品的广告、折扣券或 BOGO(买一送一)。

顾客收到的推送可能是不同的,一些顾客可能一连几周都收不到任何推送。
每种推送都有有效期,可以认为顾客在有效期内都可能受到这条推送的影响。
也有可能顾客购买了商品,但没有收到或者没有看推送。

数据集中还包含 app 上支付的交易信息,交易信息包括购买时间和购买支付的金额。交易信息还包括该顾客收到的推送种类和数量以及看了该推送的时间。顾客做出了购买行为也会产生一条记录。

分析的任务是将交易数据、人口统计数据和推送数据结合起来,判断星巴克用户有哪些细分群体,并判断哪一类人群会受到某种推送的影响。

数据文件和字段

包含三个数据文件

1. portfolio.json
id (string) – 推送的id
offer_type (string) – 推送的种类,例如 BOGO、打折(discount)、信息(informational)
difficulty (int) – 满足推送的要求所需的最少花费
reward (int) – 满足推送的要求后给与的优惠
duration (int) – 推送持续的时间,单位是天
channels (字符串列表)

2. profile.json
age (int) – 顾客的年龄
became_member_on (int) – 该顾客第一次注册app的时间
gender (str) – 顾客的性别(注意除了表示男性的 M 和表示女性的 F 之外,还有表示其他的 O)
id (str) – 顾客id
income (float) – 顾客的收入

3. transcript.json
event (str) – 记录的描述(比如交易记录、推送已收到、推送已阅)
person (str) – 顾客id
time (int) – 单位是小时,测试开始时计时。该数据从时间点 t=0 开始
value - (dict of strings) – 推送的id 或者交易的数额

二、问题提出

  1. 星巴克主要有哪些用户群体,每类人群的特点是什么?
  2. 各类人群各自最喜欢的推送是什么?如何最好地使用这些推送来激发顾客消费?

三、主要方法和过程

1. 清洗数据

2. 以每类活动的特征为自变量,活动响应率为因变量,创建回归方程

3. 用户聚类以及用户对offer的偏好

四、数据探索和分析

1. 活动信息数据

2. 用户数据

3. 交易数据

4. 哪些活动的要素较关键?

5. 用户细分群体

6. 每类用户群体的offer偏好, 以及促进用户消费的offer发放策略建议

每类用户对每一类推送的响应率

五、总结

反思:
改进和扩展:
上一篇 下一篇

猜你喜欢

热点阅读