python数据分析项目——台北101门票销售情况(二)
用户分层
紧接着上一篇文章,现在我们来分析下不同用户(游客)的分层:
user_status = df.pivot_table(index='author', columns='month', values='frequency', aggfunc='count')
user_status = user_status.fillna(0)
user_status = user_status.applymap(lambda x: 1 if x > 0 else 0)
建立一个数据透视表,并先将所有的NAN值改成0,购买过2次及以上的游客统统记为1,为接下来的用户分层做准备:
3.png
def active_status(x):
status = []
for i in range(len(user_status.columns)):
# 本月没有消费
if x[i] == 0:
if len(status) > 0:
if status[i-1] == 'unreg':
status.append('unreg')
else:
status.append('unactive')
else:
status.append('unreg')
# 本月有消费
else:
if len(status) == 0:
status.append('new')
else:
if status[i-1] == 'unactive':
status.append('return')
elif status[i-1] == 'unreg':
status.append('new')
else:
status.append('active')
return pd.Series(status)
上面的代码就是对用户的简单分层:'unreg'是个前期标注,表示非客户;‘unactive'表示非活跃用户,上月有消费,而本月没有消费;'new'表示新客户,之前没有消费,本月有消费;'active'表示活跃用户,连续两月有消费;'return'表示回流用户,本来的非活跃用户,本月有消费。
pivot_user_status = user_status.apply(active_status, axis=1)
pivot_user_status.columns = user_status.columns
# 把浮点转成整数
def convert_int(x):
if isinstance(x, float) and x >= 0:
return int(x)
# 将前期标注的'unreg'替换成NAN,不计入后续计算中,T表示index和columns的互换
pivot_user_status = pivot_user_status.replace('unreg', np.NAN).apply(pd.value_counts).T
pivot_user_status_count = pivot_user_status.fillna(0).applymap(convert_int)
上述的变换后,最后得到4种用户每个月的购买情况:
4.png
plt.style.use('seaborn-pastel')
pivot_user_status_count.plot.area()
plt.title('用户分层数量', fontsize=15)
plt.xlabel('月份', fontsize=12)
plt.ylabel('人数', fontsize=12)
plt.savefig('用户分层数量area.png')
用户分层数量area.png
从图中可以看到活跃和回流用户几乎没有,新用户在2018年5月之后开始趋于稳定,而这个时间点也是上篇文章中分析到的销量明显下降的日期;不活跃用户随着时间的积累,曲线符合预期,无异常。
而数据分析中,数量的指标远不如比率的指标,所以我们再将4种用户的数量改成比率,这样才能更直观地看出问题和端倪:
rate = pivot_user_status_count.apply(lambda x: x/x.sum()).applymap(lambda x: float('%.3f' % x))
plt.style.use('fast')
titles = rate.columns.values
labels = (i for i in rate.columns.values)
plt.figure(figsize=(20,10))
plt.subplots_adjust(hspace=0.5)
for x in range(4):
plt.subplot(f'22{x}')
rate.loc[:,next(labels)].plot()
plt.xlabel('月份', fontsize=10)
plt.ylabel(f'{titles[x]}比例', fontsize=10)
plt.title(f'{titles[x]}用户比例', fontsize=12)
plt.savefig('各层用户比例plot.png')
各层用户比例plot.png
可以看到门票的销售情况,在2018年5月之后,逐步上升,不管是新用户,还是回流,还是活跃。
用户生命周期
time_max = df.groupby('author').time.max()
time_min = df.groupby('author').time.min()
lfc = (time_max - time_min).reset_index()
5.png
通过简单的描述能够看到,平均的生命周期只有23天,由于上篇文章中分析到的,92%的用户是一次消费用户,所以平均生命周期很短,因此下面我们去除一次消费,分析下二次及以上消费的生命周期:
lfc['lifetime'] = lfc.time/np.timedelta64(1,'D')
plt.figure(figsize=(10,5))
sns.distplot(lfc[lfc['lifetime'] > 0].lifetime, kde=False, rug=False, bins=50, color=sns.xkcd_rgb['brick red'])
plt.title('二次消费以上用户生命周期', fontsize=15, pad=10)
plt.xlabel('天数', fontsize=12, labelpad=5)
plt.ylabel('人数', fontsize=12, labelpad=5)
plt.savefig('二次消费以上用户生命周期hist.png')
二次消费以上用户生命周期hist.png
6.png
结合密度图和均值,能看到二次及以上消费的生命周期拉长到了300天,整体趋势随着时间的流逝而下降。
留存率
user_retention = pd.merge(left=df, right=time_min.reset_index(), how='inner', on='author', suffixes=('', '_min')).drop(columns=['year','rating','amount'])
user_retention['timediff'] = user_retention.time - user_retention.time_min
user_retention['timediff'] = user_retention.timediff.apply(lambda x: x/np.timedelta64(1,'D'))
bins = []
for i in range(0, 1000, 100):
bins.append(i)
user_retention['timediff_bin'] = pd.cut(user_retention['timediff'], bins=bins)
user_r_tran = user_retention.groupby(['author', 'timediff_bin']).frequency.sum().unstack()
user_r_tran = user_r_tran.fillna(0).applymap(lambda x: 1 if x > 0 else 0)
vals = [float('%.2f'%i) for i in ((user_r_tran.sum()/user_r_tran.count()).values)]
plt.figure(figsize=(10,5))
sns.barplot(user_r_tran.columns.values, vals, palette='PuRd_r')
plt.title('各时间段的用户留存率', fontsize=12, color=sns.xkcd_rgb['reddish'], pad=10)
plt.xlabel('时间跨度(天)', fontsize=10, color=sns.xkcd_rgb['reddish'])
plt.ylabel('留存比率', fontsize=10, color=sns.xkcd_rgb['reddish'])
plt.xticks(rotation=90)
for px, py in zip(range(9), vals):
plt.text(px-0.2,py+0.004,f'{py}')
plt.savefig('各时间段的用户留存率bar.png')
各时间段的用户留存率bar.png
留存率的计算方式就是以100天为一阶段,购买的用户/总用户,我们可以看到时间跨度越大,留存率越低;台北101门票更多的还是依靠新用户的消费。针对用户留存问题,不建议过多关注。
def diff(x):
return abs(x.timediff - x.timediff.shift(-1))
lastdiff = user_retention.groupby('author').apply(diff)
plt.figure(figsize=(10,5))
sns.distplot(lastdiff.dropna(), kde=False, color=sns.xkcd_rgb['pure blue'])
plt.title('重复购买的周期', fontsize=12, color=sns.xkcd_rgb['reddish'], pad=10)
plt.xlabel('天数', fontsize=10, color=sns.xkcd_rgb['reddish'], labelpad=6)
plt.ylabel('人数', fontsize=10, color=sns.xkcd_rgb['reddish'], labelpad=6)
plt.savefig('重复购买的周期distplot.png')
重复购买的周期distplot.png
针对二次及以上消费的用户购买周期分析可以发现,这是个典型的头长尾短的图形,也就意味着该类型的产品,是适合一次性消费的购物习惯,和我们上面的留存率,用户分层的分析相符合。
总结:
本次的数据分析项目主要的目的之一是针对零售、电商、移动互联网中经常出现的一些指标的分析:复购率、留存率、用户分层、用户生命周期、购买周期。锻炼针对时间类型数据的处理。