CDNow网站用户消费行为分析

2021-02-27  本文已影响0人  蓝天花园

写这本篇文章的目的是为了加深对数据分析的理解,文章以模仿为主,利用pandas,matplotlib进行数据处理和数据可视化分析,数据来源和鲸社区分享的CDNow网站的用户购买明细。一共有用户ID,购买日期,购买数量,购买金额四个字段。

1.数据处理
2.用户总体消费分析
3.用户个体消费数据分析
4.用户消费行为周期分析
5.用户复购率与回购率

数据处理

导入数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime
plt.style.use('ggplot')#使用自带的风格进行美化

导入常用的库

columns = ['user_id','order_dt','order_products','order_amount']
df = pd.read_table(r'C:\Users\m\Desktop\CDNOW_master.txt',names = columns,sep='\s+')
#默认输出前五行
df.head()

描述性统计

#汇总各列统计信息
df.describe()

describe是描述统计,对用户数据进行整体性判断:

  1. 从描述信息中,用户每个订单平均购买2.4个商品,每个订单平均消费35元
  2. 购买商品的标准差为2.33,说明数据有一定的波动性;中位数为2,75分位数为3,说明大部分订单购买数量不多。最大值为99,购买量比较大。购买金额的情况差不多,75分位数为43,大部分都集中在小额。

总体数据来看,大部分用户都属于小额,也贡献了收入的大头,数据分布是呈长尾形态,俗称二八。

数据处理

df.info()

查看数据类型、数据是否存在空值,原数据是很干净的数据,没有空值。接下来进行时间数据类型转换。

df['order_date'] = pd.to_datetime(df.order_dt,format="%Y%m%d")
df['month'] = df.order_date.values.astype('datetime64[M]')

数据类型的转换:

到该步骤,我们通过描述性统计对数据有大概的了解,呈二八形态,也已经将数据类型处理为合适的类型,方便后续的分析。

用户总体消费分析

按照月份维度来分析用户总体消费趋势

month_grouped = df.groupby('month')

按月份进行统计分组

month_grouped.order_amount.sum().plot()
plt.title('总销售额')
plt.show()
month_grouped.order_dt.count().plot()
plt.title('消费次数')
plt.show()
month_grouped.order_products.sum().plot()
plt.title('总销量')
plt.show()

三个折线图的整体趋势基本一致,可以看出,前三个月的销量特别高涨,而三月份之后骤然下降,而后趋于平稳。为什么会出现骤然下降原因呢?第一假设用户数据出现问题,早期时间段的用户中存在异常值。第二假设是各类促销活动,但这里只有消费数据,所以无法判断。

month_grouped.user_id.apply(lambda x:len(x.unique())).plot()
plt.title('消费人数')
plt.show()

另一方面,通过消费人数的折线图看出在2月到3月消费人数稍有下降,但总销量与总销量金额依然上升,是不是说明3月份存在高价值的客户。
小结

上面四个折线图的整体趋势一致,呈现二八形态。通过消费人数分析了解到3月份存在高价值的客户,也说明我们应该重点挖掘3月份中的用户,重点发展高价值客户。

用户个体消费数据分析

前面我们是按月份维度进行整体来看数据趋势。接下来我们需要看个体消费能力如何,我们划分了五个方向:

  1. 用户消费金额,消费次数的描述性统计
  2. 用户消费金额,消费次数的散点图
  3. 用户消费金额的分布图(二八法则)
  4. 用户消费次数的分布图
  5. 用户累计消费金额的占比(百分之多少的用户占了百分之多少的消费额)

用户消费金额,消费次数的描述统计

用户的描述性统计
group_user = df.groupby('user_id')
print(group_user.sum().describe())

从用户角度来看,每位用户平均购买7张CD,购买量的最大值购买了1033张。用户的平均消费金额是100元左右,标准差为240。两者结合分位数和最大值看,平均数和75分位数接近,存在小部分高消费用户,符合二八法则。

用户消费金额和消费次数的散点图

group_user.sum().plot.scatter(x='order_amount',y='order_products')
plt.title('用户散点图')
plt.show()

用户消费金额的分布图(二八法则)

group_user.sum().order_amount.plot.hist(bins = 20)
plt.show()
group_user.sum().query("order_amount <800").order_amount.plot.hist(bins = 20)
plt.show()

用户消费次数的分布图(二八法则)

group_user.sum().query("order_products <100").order_products.plot.hist(bins = 40)
plt.show()

用户累计消费金额的占比

前面的分析对用户的消费行为有一个大概的了解,接下来分析用户质量。因为消费行为有明显的二八倾向,我们需要知道高质量用户为消费贡献了多少份额。

user_amount = df.groupby('user_id').order_amount.sum().sort_values().reset_index()
user_amount['amount_cumsum'] = user_amount.order_amount.cumsum()
print(user_amount.tail())
amount_total = user_amount.amount_cumsum.max()
user_amount['prop'] = user_amount.apply(lambda x:x.amount_cumsum / amount_total,axis = 1)
print(user_amount.tail())

转换用户贡献消费金额百分比

user_amount.prop.plot()
plt.xlabel('用户数量')
plt.ylabel('用户累计贡献百分比')
plt.show()

小结

到此我们大概可以了解用户个体消费呈现二八形态,大部分用户都属于小金额用户,符合消费行业的行规律。通过用户累计消费金额占比趋势图有大概4000个用户贡献了总体的60%,如果能把4000个用户运营的更好就可以提高到占比70%左右,更容易提高业绩。

用户消费行为周期分析

新用户第一次消费

group_user.month.min().value_counts()

用户最后一次消费

group_user.month.max().value_counts()
group_user.month.max().value_counts().plot()
plt.xlabel('月份')
plt.ylabel('最后一次消费人数')
plt.show()

新旧用户消费比

user_new_old = group_user.order_date.agg(['min','max'])
new_old = (user_new_old['min'] == user_new_old['max']).value_counts()
print(new_old)
plt.pie(x = new_old,
        labels=['仅消费一次','多次消费'],
        autopct= '%.1f%%',
        shadow= True,
        explode=[0.08,0],
        textprops={'fontsize':11})
plt.title('新老用户消费比')
plt.show()

用户购买周期

order_diff = group_user.apply(lambda x:x['order_date']-x['order_date'].shift())
print(order_diff.head(10))
order_diff.describe()

消费周期分布

(order_diff/ np.timedelta64(1,'D')).hist(bins =20)
plt.show()

用户生命周期

orderdate_min = group_user.order_date.min()
orderdate_max = group_user.order_date.max()
user_life = orderdate_max-orderdate_min
print(user_life.head())
(orderdt_max-orderdt_min).describe()
((orderdate_max-orderdate_min)/np.timedelta64(1,'D')).hist(bins=15)
life_time = (orderdate_max - orderdate_min).reset_index()
print(life_time.head())
life_time['life_time'] = life_time.order_date / np.timedelta64(1,'D')
life_time[life_time.life_time > 0].life_time.hist(bins = 100)
plt.show()
用户复购率与回购率

复购率

复购率的定义:在某时间窗口内消费两次及以上的用户在总消费用户中占比。这里的时间窗口是月,如果一个用户在同一天下了两笔订单,这里也将他算作复购用户

pivoted_df = df.pivot_table(index= 'user_id',
                            columns='month',
                            values='order_date',
                            aggfunc='count').fillna(0)
print(pivoted_df.head())
pivoted_df_tranf = pivoted_df.applymap(lambda x: 1 if x>1 else np.nan if x ==0 else 0 )

(pivoted_df_tranf.sum() / pivoted_df_tranf.count()).plot(figsize = (10,4))
plt.show()

回购率
接下来计算回购率,回购率是某一个时间窗口内消费的用户,在下一个时间窗口人就消费的占比。

pivoted_amount = df.pivot_table(index = 'user_id',
                                columns = 'month',
                                values = 'order_amount',
                                aggfunc = 'mean').fillna(0)
columns_month = df.month.sort_values().astype('str').unique()
pivoted_amount.columns = columns_month
print(pivoted_amount.head())
pivoted_purchase = pivoted_amount.applymap(lambda x:1 if x>1 else 0)
print(pivoted_purchase.head())
def purchase_return(data):
    status = []
    for i in range(17):
        if data[i] == 1: #如本月消费
            if data[i+1] == 1: #下个月也消费
                status.append(1) #标记为1
            if data[i+1] == 0: #下个不消费
                status.append(0) #标记为0
        else:
            status.append(np.NAN)
    status.append(np.NAN)
    return pd.Series(status,index=columns_month)
pivoted_purchase_return = pivoted_purchase.apply(purchase_return,axis=1)
print(pivoted_purchase_return.head())
df_purchase = (pivoted_purchase_return.sum() / pivoted_purchase_return.count()).reset_index()
df_purchase.columns = ['Date', 'PurchaseRate'] #重新给列名赋值
df_purchase['Date'] = df_purchase.Date.astype(str).apply(lambda x:x[:-3]) #获取年月

plt.figure(figsize = (15,5))
plt.plot(df_purchase.Date, df_purchase.PurchaseRate)
plt.show()

小结
到此用户消费行为周期分析已完成,通过新旧用户消费比,发现CDNOw网站留存用户的效果不高,营运效果不佳,进一步通过用户的复购率和回购率的分析,说明在新用户消费后的三个月是营销的好时段,应做好营销策略引导用户再次消费以及持续消费,也要适当推出优惠活动,保持老用户的支持度。

到此CDNow网站用户消费行为分析以完成,后续学习更多再来补充!

上一篇下一篇

猜你喜欢

热点阅读