Python数据分析数据分析

python数据分析项目——台北101门票销售情况(二)

2019-05-19  本文已影响11人  NXLLno

用户分层

紧接着上一篇文章,现在我们来分析下不同用户(游客)的分层:

user_status = df.pivot_table(index='author', columns='month', values='frequency', aggfunc='count')
user_status = user_status.fillna(0)
user_status = user_status.applymap(lambda x: 1 if x > 0 else 0)

建立一个数据透视表,并先将所有的NAN值改成0,购买过2次及以上的游客统统记为1,为接下来的用户分层做准备:


3.png
def active_status(x):
    status = []
    for i in range(len(user_status.columns)):
        # 本月没有消费
        if x[i] == 0:
            if len(status) > 0:
                if status[i-1] == 'unreg':
                    status.append('unreg')
                else:
                    status.append('unactive')
            else:
                status.append('unreg')
                
        # 本月有消费
        else:
            if len(status) == 0:
                status.append('new')
            else:
                if status[i-1] == 'unactive':
                    status.append('return')
                elif status[i-1] == 'unreg':
                    status.append('new')
                else:
                    status.append('active')
                    
    return pd.Series(status)

上面的代码就是对用户的简单分层:'unreg'是个前期标注,表示非客户;‘unactive'表示非活跃用户,上月有消费,而本月没有消费;'new'表示新客户,之前没有消费,本月有消费;'active'表示活跃用户,连续两月有消费;'return'表示回流用户,本来的非活跃用户,本月有消费。

pivot_user_status = user_status.apply(active_status, axis=1)
pivot_user_status.columns = user_status.columns
# 把浮点转成整数
def convert_int(x):
    if isinstance(x, float) and x >= 0:
        return int(x)
# 将前期标注的'unreg'替换成NAN,不计入后续计算中,T表示index和columns的互换
pivot_user_status = pivot_user_status.replace('unreg', np.NAN).apply(pd.value_counts).T
pivot_user_status_count = pivot_user_status.fillna(0).applymap(convert_int)

上述的变换后,最后得到4种用户每个月的购买情况:


4.png
plt.style.use('seaborn-pastel')
pivot_user_status_count.plot.area()
plt.title('用户分层数量', fontsize=15)
plt.xlabel('月份', fontsize=12)
plt.ylabel('人数', fontsize=12)
plt.savefig('用户分层数量area.png')
用户分层数量area.png

从图中可以看到活跃和回流用户几乎没有,新用户在2018年5月之后开始趋于稳定,而这个时间点也是上篇文章中分析到的销量明显下降的日期;不活跃用户随着时间的积累,曲线符合预期,无异常。

而数据分析中,数量的指标远不如比率的指标,所以我们再将4种用户的数量改成比率,这样才能更直观地看出问题和端倪:

rate = pivot_user_status_count.apply(lambda x: x/x.sum()).applymap(lambda x: float('%.3f' % x))
plt.style.use('fast')
titles = rate.columns.values
labels = (i for i in rate.columns.values)
plt.figure(figsize=(20,10))
plt.subplots_adjust(hspace=0.5)
for x in range(4):
    plt.subplot(f'22{x}')
    rate.loc[:,next(labels)].plot()
    plt.xlabel('月份', fontsize=10)
    plt.ylabel(f'{titles[x]}比例', fontsize=10)
    plt.title(f'{titles[x]}用户比例', fontsize=12)
plt.savefig('各层用户比例plot.png')
各层用户比例plot.png

可以看到门票的销售情况,在2018年5月之后,逐步上升,不管是新用户,还是回流,还是活跃。

用户生命周期

time_max = df.groupby('author').time.max()
time_min = df.groupby('author').time.min()
lfc = (time_max - time_min).reset_index()
5.png

通过简单的描述能够看到,平均的生命周期只有23天,由于上篇文章中分析到的,92%的用户是一次消费用户,所以平均生命周期很短,因此下面我们去除一次消费,分析下二次及以上消费的生命周期:

lfc['lifetime'] = lfc.time/np.timedelta64(1,'D')

plt.figure(figsize=(10,5))
sns.distplot(lfc[lfc['lifetime'] > 0].lifetime, kde=False, rug=False, bins=50, color=sns.xkcd_rgb['brick red'])
plt.title('二次消费以上用户生命周期', fontsize=15, pad=10)
plt.xlabel('天数', fontsize=12, labelpad=5)
plt.ylabel('人数', fontsize=12, labelpad=5)
plt.savefig('二次消费以上用户生命周期hist.png')
二次消费以上用户生命周期hist.png
6.png

结合密度图和均值,能看到二次及以上消费的生命周期拉长到了300天,整体趋势随着时间的流逝而下降。

留存率

user_retention = pd.merge(left=df, right=time_min.reset_index(), how='inner', on='author', suffixes=('', '_min')).drop(columns=['year','rating','amount'])
user_retention['timediff'] = user_retention.time - user_retention.time_min
user_retention['timediff'] = user_retention.timediff.apply(lambda x: x/np.timedelta64(1,'D'))

bins = []
for i in range(0, 1000, 100):
    bins.append(i)
user_retention['timediff_bin'] = pd.cut(user_retention['timediff'], bins=bins)
user_r_tran = user_retention.groupby(['author', 'timediff_bin']).frequency.sum().unstack()
user_r_tran = user_r_tran.fillna(0).applymap(lambda x: 1 if x > 0 else 0)
vals = [float('%.2f'%i) for i in ((user_r_tran.sum()/user_r_tran.count()).values)]

plt.figure(figsize=(10,5))
sns.barplot(user_r_tran.columns.values, vals, palette='PuRd_r')
plt.title('各时间段的用户留存率', fontsize=12, color=sns.xkcd_rgb['reddish'], pad=10)
plt.xlabel('时间跨度(天)', fontsize=10, color=sns.xkcd_rgb['reddish'])
plt.ylabel('留存比率', fontsize=10, color=sns.xkcd_rgb['reddish'])
plt.xticks(rotation=90)
for px, py in zip(range(9), vals):
    plt.text(px-0.2,py+0.004,f'{py}')
plt.savefig('各时间段的用户留存率bar.png')
各时间段的用户留存率bar.png

留存率的计算方式就是以100天为一阶段,购买的用户/总用户,我们可以看到时间跨度越大,留存率越低;台北101门票更多的还是依靠新用户的消费。针对用户留存问题,不建议过多关注。

def diff(x):
    return abs(x.timediff - x.timediff.shift(-1))
lastdiff = user_retention.groupby('author').apply(diff)
plt.figure(figsize=(10,5))
sns.distplot(lastdiff.dropna(), kde=False, color=sns.xkcd_rgb['pure blue'])
plt.title('重复购买的周期', fontsize=12, color=sns.xkcd_rgb['reddish'], pad=10)
plt.xlabel('天数', fontsize=10, color=sns.xkcd_rgb['reddish'], labelpad=6)
plt.ylabel('人数', fontsize=10, color=sns.xkcd_rgb['reddish'], labelpad=6)
plt.savefig('重复购买的周期distplot.png')
重复购买的周期distplot.png

针对二次及以上消费的用户购买周期分析可以发现,这是个典型的头长尾短的图形,也就意味着该类型的产品,是适合一次性消费的购物习惯,和我们上面的留存率,用户分层的分析相符合。

总结:

本次的数据分析项目主要的目的之一是针对零售、电商、移动互联网中经常出现的一些指标的分析:复购率、留存率、用户分层、用户生命周期、购买周期。锻炼针对时间类型数据的处理。

上一篇下一篇

猜你喜欢

热点阅读