python数据分析项目——台北101门票销售情况（二）

2019-05-19 本文已影响11人 NXLLno

用户分层

紧接着上一篇文章，现在我们来分析下不同用户（游客）的分层：

user_status = df.pivot_table(index='author', columns='month', values='frequency', aggfunc='count')
user_status = user_status.fillna(0)
user_status = user_status.applymap(lambda x: 1 if x > 0 else 0)

建立一个数据透视表，并先将所有的NAN值改成0，购买过2次及以上的游客统统记为1，为接下来的用户分层做准备：

3.png

def active_status(x):
    status = []
    for i in range(len(user_status.columns)):
        # 本月没有消费
        if x[i] == 0:
            if len(status) > 0:
                if status[i-1] == 'unreg':
                    status.append('unreg')
                else:
                    status.append('unactive')
            else:
                status.append('unreg')
                
        # 本月有消费
        else:
            if len(status) == 0:
                status.append('new')
            else:
                if status[i-1] == 'unactive':
                    status.append('return')
                elif status[i-1] == 'unreg':
                    status.append('new')
                else:
                    status.append('active')
                    
    return pd.Series(status)

上面的代码就是对用户的简单分层：'unreg'是个前期标注，表示非客户；‘unactive'表示非活跃用户，上月有消费，而本月没有消费；'new'表示新客户，之前没有消费，本月有消费；'active'表示活跃用户，连续两月有消费；'return'表示回流用户，本来的非活跃用户，本月有消费。

pivot_user_status = user_status.apply(active_status, axis=1)
pivot_user_status.columns = user_status.columns
# 把浮点转成整数
def convert_int(x):
    if isinstance(x, float) and x >= 0:
        return int(x)
# 将前期标注的'unreg'替换成NAN，不计入后续计算中，T表示index和columns的互换
pivot_user_status = pivot_user_status.replace('unreg', np.NAN).apply(pd.value_counts).T
pivot_user_status_count = pivot_user_status.fillna(0).applymap(convert_int)

上述的变换后，最后得到4种用户每个月的购买情况：

4.png

plt.style.use('seaborn-pastel')
pivot_user_status_count.plot.area()
plt.title('用户分层数量', fontsize=15)
plt.xlabel('月份', fontsize=12)
plt.ylabel('人数', fontsize=12)
plt.savefig('用户分层数量area.png')

用户分层数量area.png

从图中可以看到活跃和回流用户几乎没有，新用户在2018年5月之后开始趋于稳定，而这个时间点也是上篇文章中分析到的销量明显下降的日期；不活跃用户随着时间的积累，曲线符合预期，无异常。

而数据分析中，数量的指标远不如比率的指标，所以我们再将4种用户的数量改成比率，这样才能更直观地看出问题和端倪：

rate = pivot_user_status_count.apply(lambda x: x/x.sum()).applymap(lambda x: float('%.3f' % x))

plt.style.use('fast')
titles = rate.columns.values
labels = (i for i in rate.columns.values)
plt.figure(figsize=(20,10))
plt.subplots_adjust(hspace=0.5)
for x in range(4):
    plt.subplot(f'22{x}')
    rate.loc[:,next(labels)].plot()
    plt.xlabel('月份', fontsize=10)
    plt.ylabel(f'{titles[x]}比例', fontsize=10)
    plt.title(f'{titles[x]}用户比例', fontsize=12)
plt.savefig('各层用户比例plot.png')

各层用户比例plot.png

可以看到门票的销售情况，在2018年5月之后，逐步上升，不管是新用户，还是回流，还是活跃。

用户生命周期

time_max = df.groupby('author').time.max()
time_min = df.groupby('author').time.min()
lfc = (time_max - time_min).reset_index()

5.png

通过简单的描述能够看到，平均的生命周期只有23天，由于上篇文章中分析到的，92%的用户是一次消费用户，所以平均生命周期很短，因此下面我们去除一次消费，分析下二次及以上消费的生命周期：

lfc['lifetime'] = lfc.time/np.timedelta64(1,'D')

plt.figure(figsize=(10,5))
sns.distplot(lfc[lfc['lifetime'] > 0].lifetime, kde=False, rug=False, bins=50, color=sns.xkcd_rgb['brick red'])
plt.title('二次消费以上用户生命周期', fontsize=15, pad=10)
plt.xlabel('天数', fontsize=12, labelpad=5)
plt.ylabel('人数', fontsize=12, labelpad=5)
plt.savefig('二次消费以上用户生命周期hist.png')

二次消费以上用户生命周期hist.png

6.png

结合密度图和均值，能看到二次及以上消费的生命周期拉长到了300天，整体趋势随着时间的流逝而下降。

留存率

user_retention = pd.merge(left=df, right=time_min.reset_index(), how='inner', on='author', suffixes=('', '_min')).drop(columns=['year','rating','amount'])
user_retention['timediff'] = user_retention.time - user_retention.time_min
user_retention['timediff'] = user_retention.timediff.apply(lambda x: x/np.timedelta64(1,'D'))

bins = []
for i in range(0, 1000, 100):
    bins.append(i)
user_retention['timediff_bin'] = pd.cut(user_retention['timediff'], bins=bins)
user_r_tran = user_retention.groupby(['author', 'timediff_bin']).frequency.sum().unstack()
user_r_tran = user_r_tran.fillna(0).applymap(lambda x: 1 if x > 0 else 0)
vals = [float('%.2f'%i) for i in ((user_r_tran.sum()/user_r_tran.count()).values)]

plt.figure(figsize=(10,5))
sns.barplot(user_r_tran.columns.values, vals, palette='PuRd_r')
plt.title('各时间段的用户留存率', fontsize=12, color=sns.xkcd_rgb['reddish'], pad=10)
plt.xlabel('时间跨度(天)', fontsize=10, color=sns.xkcd_rgb['reddish'])
plt.ylabel('留存比率', fontsize=10, color=sns.xkcd_rgb['reddish'])
plt.xticks(rotation=90)
for px, py in zip(range(9), vals):
    plt.text(px-0.2,py+0.004,f'{py}')
plt.savefig('各时间段的用户留存率bar.png')

各时间段的用户留存率bar.png

留存率的计算方式就是以100天为一阶段，购买的用户/总用户，我们可以看到时间跨度越大，留存率越低；台北101门票更多的还是依靠新用户的消费。针对用户留存问题，不建议过多关注。

def diff(x):
    return abs(x.timediff - x.timediff.shift(-1))
lastdiff = user_retention.groupby('author').apply(diff)
plt.figure(figsize=(10,5))
sns.distplot(lastdiff.dropna(), kde=False, color=sns.xkcd_rgb['pure blue'])
plt.title('重复购买的周期', fontsize=12, color=sns.xkcd_rgb['reddish'], pad=10)
plt.xlabel('天数', fontsize=10, color=sns.xkcd_rgb['reddish'], labelpad=6)
plt.ylabel('人数', fontsize=10, color=sns.xkcd_rgb['reddish'], labelpad=6)
plt.savefig('重复购买的周期distplot.png')

重复购买的周期distplot.png

针对二次及以上消费的用户购买周期分析可以发现，这是个典型的头长尾短的图形，也就意味着该类型的产品，是适合一次性消费的购物习惯，和我们上面的留存率，用户分层的分析相符合。

总结：

本次的数据分析项目主要的目的之一是针对零售、电商、移动互联网中经常出现的一些指标的分析：复购率、留存率、用户分层、用户生命周期、购买周期。锻炼针对时间类型数据的处理。

python数据分析项目——台北101门票销售情况（二）

用户分层

用户生命周期

留存率

总结：

猜你喜欢

热点阅读