CDNow网站用户消费行为分析
写这本篇文章的目的是为了加深对数据分析的理解,文章以模仿为主,利用pandas,matplotlib进行数据处理和数据可视化分析,数据来源和鲸社区分享的CDNow网站的用户购买明细。一共有用户ID,购买日期,购买数量,购买金额四个字段。
1.数据处理
2.用户总体消费分析
3.用户个体消费数据分析
4.用户消费行为周期分析
5.用户复购率与回购率
数据处理
导入数据
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime
plt.style.use('ggplot')#使用自带的风格进行美化
导入常用的库
columns = ['user_id','order_dt','order_products','order_amount']
df = pd.read_table(r'C:\Users\m\Desktop\CDNOW_master.txt',names = columns,sep='\s+')
- 加载包和数据,文件是txt格式,用read_table打开,因为源数据不包括表头,所以需要赋予表头字段,字符串是空格分隔,用\s+表示匹配任意空白符。
- 表头字段分为用户ID,购买日期,订单数,订单金额来分析,基本上这四个字段就可以进行丰富的分析。
#默认输出前五行
df.head()
- 观察数据,order_dt列表示时间,但只是一串年月日的数字,后续需要数据类型转换。
- 数据中存在一个用户同一天或不同天购买多次,如用户ID为2在12号购买了两次,这个细节要特别留意。
描述性统计
#汇总各列统计信息
df.describe()
describe是描述统计,对用户数据进行整体性判断:
- 从描述信息中,用户每个订单平均购买2.4个商品,每个订单平均消费35元
- 购买商品的标准差为2.33,说明数据有一定的波动性;中位数为2,75分位数为3,说明大部分订单购买数量不多。最大值为99,购买量比较大。购买金额的情况差不多,75分位数为43,大部分都集中在小额。
总体数据来看,大部分用户都属于小额,也贡献了收入的大头,数据分布是呈长尾形态,俗称二八。
数据处理
df.info()
查看数据类型、数据是否存在空值,原数据是很干净的数据,没有空值。接下来进行时间数据类型转换。
df['order_date'] = pd.to_datetime(df.order_dt,format="%Y%m%d")
df['month'] = df.order_date.values.astype('datetime64[M]')
数据类型的转换:
- pd.to_datetime可以将数字转换为时间类型,format参数用于匹配。%Y匹配前四位数字1997,小写y只匹配97,%m匹配01,%d匹配01,返回结果为1997-01-01。
- astype可以将时间类型进行转换,[M]转换为月份,这里取月份窗口作为消费频率。
小结
到该步骤,我们通过描述性统计对数据有大概的了解,呈二八形态,也已经将数据类型处理为合适的类型,方便后续的分析。
用户总体消费分析
按照月份维度来分析用户总体消费趋势
- 每月的总销售额
- 每月的总销量
- 每月的消费人数
month_grouped = df.groupby('month')
按月份进行统计分组
month_grouped.order_amount.sum().plot()
plt.title('总销售额')
plt.show()
- 按月统计CD的销量金额,从图中可以知道,前三个月的销量金额非常高。数据比较异常,而后期的销量金额则很平稳
month_grouped.order_dt.count().plot()
plt.title('消费次数')
plt.show()
- 图中可知前三个月的消费订单数在10000~12000笔区间中,订单数非常高涨,后期平均维持在2500笔左右。
month_grouped.order_products.sum().plot()
plt.title('总销量')
plt.show()
- 和销量金额一样,每月的产品销量呈现早期销量非常大,后期平稳下降的趋势。
三个折线图的整体趋势基本一致,可以看出,前三个月的销量特别高涨,而三月份之后骤然下降,而后趋于平稳。为什么会出现骤然下降原因呢?第一假设用户数据出现问题,早期时间段的用户中存在异常值。第二假设是各类促销活动,但这里只有消费数据,所以无法判断。
month_grouped.user_id.apply(lambda x:len(x.unique())).plot()
plt.title('消费人数')
plt.show()
另一方面,通过消费人数的折线图看出在2月到3月消费人数稍有下降,但总销量与总销量金额依然上升,是不是说明3月份存在高价值的客户。
小结
上面四个折线图的整体趋势一致,呈现二八形态。通过消费人数分析了解到3月份存在高价值的客户,也说明我们应该重点挖掘3月份中的用户,重点发展高价值客户。
用户个体消费数据分析
前面我们是按月份维度进行整体来看数据趋势。接下来我们需要看个体消费能力如何,我们划分了五个方向:
- 用户消费金额,消费次数的描述性统计
- 用户消费金额,消费次数的散点图
- 用户消费金额的分布图(二八法则)
- 用户消费次数的分布图
- 用户累计消费金额的占比(百分之多少的用户占了百分之多少的消费额)
用户消费金额,消费次数的描述统计
用户的描述性统计
group_user = df.groupby('user_id')
print(group_user.sum().describe())
从用户角度来看,每位用户平均购买7张CD,购买量的最大值购买了1033张。用户的平均消费金额是100元左右,标准差为240。两者结合分位数和最大值看,平均数和75分位数接近,存在小部分高消费用户,符合二八法则。
用户消费金额和消费次数的散点图
group_user.sum().plot.scatter(x='order_amount',y='order_products')
plt.title('用户散点图')
plt.show()
- 从图上看用户比较健康而且规律性很强,整体符合CD网站商品单一的销售数据,金额和商品呈线性,没几个离散点。
用户消费金额的分布图(二八法则)
group_user.sum().order_amount.plot.hist(bins = 20)
plt.show()
- 从图中看用户的消费呈集中趋势,可能是有个别的极大值干扰导致。可以排除极大值再看看分布。
group_user.sum().query("order_amount <800").order_amount.plot.hist(bins = 20)
plt.show()
- 从直方图图可知,绝大部分用户呈现集中在低的消费档次,将近半数的用户消费金额不超过40元,高消费用户(>200元)不超过2000人,高消费在图中几乎看不到,符合消费行为的行业规律。
用户消费次数的分布图(二八法则)
group_user.sum().query("order_products <100").order_products.plot.hist(bins = 40)
plt.show()
- 大部分用户购买CD的数量在7张内,大量购买CD的用户数量很低。
用户累计消费金额的占比
前面的分析对用户的消费行为有一个大概的了解,接下来分析用户质量。因为消费行为有明显的二八倾向,我们需要知道高质量用户为消费贡献了多少份额。
user_amount = df.groupby('user_id').order_amount.sum().sort_values().reset_index()
user_amount['amount_cumsum'] = user_amount.order_amount.cumsum()
print(user_amount.tail())
- 按用户的消费金额升序,使用cumsum累加函数。逐行计算累计的金额,获取最后的总消费金额为2500315。
amount_total = user_amount.amount_cumsum.max()
user_amount['prop'] = user_amount.apply(lambda x:x.amount_cumsum / amount_total,axis = 1)
print(user_amount.tail())
转换用户贡献消费金额百分比
user_amount.prop.plot()
plt.xlabel('用户数量')
plt.ylabel('用户累计贡献百分比')
plt.show()
- 绘制趋势图,横坐标是以贡献金额大小排序的用户,纵坐标则是用户累计贡献百分比。前面知道总体用户为24000左右,图中可以看到前20000个用户贡献40%,后面4000位用户贡献了60%,确实呈现二八倾向。也就是说我们维护这4000个用户就可以达到业绩KPI完成60%。
小结
到此我们大概可以了解用户个体消费呈现二八形态,大部分用户都属于小金额用户,符合消费行业的行规律。通过用户累计消费金额占比趋势图有大概4000个用户贡献了总体的60%,如果能把4000个用户运营的更好就可以提高到占比70%左右,更容易提高业绩。
用户消费行为周期分析
- 用户第一次消费(首购)
- 用户最后一次消费
- 新老客户消费比
- 用户生命周期
- 用户购买周期
- 用户复购率与回购率
新用户第一次消费
group_user.month.min().value_counts()
- 按用户分组求月份的最小值,即用户消费行为中的第一次消费时间。图中可知所有用户的第一次消费都集中在前三个月。
用户最后一次消费
group_user.month.max().value_counts()
group_user.month.max().value_counts().plot()
plt.xlabel('月份')
plt.ylabel('最后一次消费人数')
plt.show()
- 观察用户的最后一次消费时间。绝大部分数据依然集中在前三个月,后续的时间段内有用户消费,但增长缓慢递增,存在一定的用户回购。
- 前面提到的第一假设的异常趋势得到解释,但这只是部分用户的订单数据,所以有一定局限性。
新旧用户消费比
user_new_old = group_user.order_date.agg(['min','max'])
new_old = (user_new_old['min'] == user_new_old['max']).value_counts()
print(new_old)
- 按用户分组,计算用户第一消费和最后一次消费时间,如果新旧时间一致,说明只消费了一次。统计数据可知有一半的用户只消费一次。
plt.pie(x = new_old,
labels=['仅消费一次','多次消费'],
autopct= '%.1f%%',
shadow= True,
explode=[0.08,0],
textprops={'fontsize':11})
plt.title('新老用户消费比')
plt.show()
- 绘制饼图更直观反映现象,超过一半用户仅消费一次,这也说明留存用户效果不好,营运效果不佳。
用户购买周期
order_diff = group_user.apply(lambda x:x['order_date']-x['order_date'].shift())
print(order_diff.head(10))
- 每个用户的每次购买时间间隔,用户1只购买一次,所以为空值,用户2的第一笔订单与第二笔订单在同一天购买的。
order_diff.describe()
- 每个用户的购买时间间隔平均是68天,间隔最长的是533天。想要召回用户,在60天左右的消费间隔也是比较好的。
消费周期分布
(order_diff/ np.timedelta64(1,'D')).hist(bins =20)
plt.show()
- 数据呈指数分布,大部分用户的消费周期确实比较短,低于100天。
用户生命周期
orderdate_min = group_user.order_date.min()
orderdate_max = group_user.order_date.max()
user_life = orderdate_max-orderdate_min
print(user_life.head())
(orderdt_max-orderdt_min).describe()
- 所有的用户平均生命周期有134天,中位数为0天也就是说有一半用户的生命周期只购买了一次。接下来看一下分布情况。
((orderdate_max-orderdate_min)/np.timedelta64(1,'D')).hist(bins=15)
- 有一半的用户只消费一次,所以生命周期的大头都集中在0天。
- 不妨将只消费了一次的新客排除,来计算所有消费过两次以上的老客的生命周期。
life_time = (orderdate_max - orderdate_min).reset_index()
print(life_time.head())
life_time['life_time'] = life_time.order_date / np.timedelta64(1,'D')
life_time[life_time.life_time > 0].life_time.hist(bins = 100)
plt.show()
- 这是双峰趋势图。20天内生命周期的用户是一个高峰,但无法持续,在用户首次消费30天内应该尽量引导,延长其生命周期。少部分用户集中在50天~300天,属于普通型的生命周期。高质量用户的生命周期,集中在400天以后,这已经属于忠诚用户了。
用户复购率与回购率
复购率
复购率的定义:在某时间窗口内消费两次及以上的用户在总消费用户中占比。这里的时间窗口是月,如果一个用户在同一天下了两笔订单,这里也将他算作复购用户
pivoted_df = df.pivot_table(index= 'user_id',
columns='month',
values='order_date',
aggfunc='count').fillna(0)
print(pivoted_df.head())
- 每个用户在每月的订单数,其中这里没有消费过的标记0。
pivoted_df_tranf = pivoted_df.applymap(lambda x: 1 if x>1 else np.nan if x ==0 else 0 )
- 数据转换一下,消费2次以上记为1,消费1次记为0,消费0次记为NAN
(pivoted_df_tranf.sum() / pivoted_df_tranf.count()).plot(figsize = (10,4))
plt.show()
- 这里用sum和count相除即可计算出复购率。因为这两个函数都会忽略NaN,而NaN是没有消费的用户。count计算的是总的消费用户数,sum计算了两次以上的消费用户。
- 图上可以看到早期的复购率并不高,是因为早期大量新用户加入,如一月份的复购率只有6%左右。而到后期,这是的复购率就相对稳定,在20%左右。
- 单看新客和老客,复购率有三倍左右的差距。
回购率
接下来计算回购率,回购率是某一个时间窗口内消费的用户,在下一个时间窗口人就消费的占比。
pivoted_amount = df.pivot_table(index = 'user_id',
columns = 'month',
values = 'order_amount',
aggfunc = 'mean').fillna(0)
columns_month = df.month.sort_values().astype('str').unique()
pivoted_amount.columns = columns_month
print(pivoted_amount.head())
- 这里利用每个用户每个月平均消费金额作为练习。
pivoted_purchase = pivoted_amount.applymap(lambda x:1 if x>1 else 0)
print(pivoted_purchase.head())
- 再次转换数据,只要有过购买,记为1,反之为0。
def purchase_return(data):
status = []
for i in range(17):
if data[i] == 1: #如本月消费
if data[i+1] == 1: #下个月也消费
status.append(1) #标记为1
if data[i+1] == 0: #下个不消费
status.append(0) #标记为0
else:
status.append(np.NAN)
status.append(np.NAN)
return pd.Series(status,index=columns_month)
pivoted_purchase_return = pivoted_purchase.apply(purchase_return,axis=1)
print(pivoted_purchase_return.head())
- 创建一个判断函数。data是输入的数据,status是空列表,用来保存用户是否回购的字段。
- 判断逻辑:如果用户本月进行过消费,且下月消费过,记为1,没有消费过是0。本月若没有进行过消费,为NaN,后续的统计中进行排除。
df_purchase = (pivoted_purchase_return.sum() / pivoted_purchase_return.count()).reset_index()
df_purchase.columns = ['Date', 'PurchaseRate'] #重新给列名赋值
df_purchase['Date'] = df_purchase.Date.astype(str).apply(lambda x:x[:-3]) #获取年月
plt.figure(figsize = (15,5))
plt.plot(df_purchase.Date, df_purchase.PurchaseRate)
plt.show()
- 上图可以看出,在初期用户的回购率并不高,1月的回购率只有15%左右,4月份起回购率稳定在30%左右,波动性也较强。
- 对回购率的分析,再次说明了对于新用户,在其第一次消费后的三个月内是一段重要的时期,需要营销策略积极引导其再次消费及持续消费。
- 另外,对于有持续消费的老客,也要适时推出反馈老客户的优惠活动,以加强老客的忠诚度。
小结
到此用户消费行为周期分析已完成,通过新旧用户消费比,发现CDNOw网站留存用户的效果不高,营运效果不佳,进一步通过用户的复购率和回购率的分析,说明在新用户消费后的三个月是营销的好时段,应做好营销策略引导用户再次消费以及持续消费,也要适当推出优惠活动,保持老用户的支持度。
到此CDNow网站用户消费行为分析以完成,后续学习更多再来补充!