淘宝用户行为数据分析详解
随着移动互联网多年的快速发展,移动互联网已进入下半场 ,不再依靠用户红利来经营,发展业务,告别粗糙的/高成本企业发展的方式,开始转而精细化管理,结合市场、渠道、用户行为等数据分析,对用户展开有针对性的运营活动,提供个性化、差异化的运营策略,以实现运营目的行为。本文利用sql对淘宝用户行为数据进行分析,通过用户行为分析业务问题,提供针对性的运营策略。
一. 提出问题
本次分析的目的是想通过对淘宝用户行为数据分析,为以下问题提供解释和改进建议:
1.分析用户使用APP过程中的常见电商分析指标,确定各个环节的流失率,找到需要改进的环节
2.研究用户在不同时间尺度下的行为规律,找到用户在不同时间周期下的活跃规律
3.找到用户对不同种类商品的偏好,找到针对不同商品的营销策略
4.找出最具价值的核心付费用户群,对这部分用户的行为进行分析
为了分析这些问题,我们使用以下两种模型进行分析
1.基于AARRR漏斗模型分析用户行为
本文通过常用的电商数据分析指标,采用AARRR漏斗模型拆解用户进入APP后的每一步行为。AARRR模型是根据用户使用产品全流程的不同阶段进行划分的,针对每一环节的用户流失情况分析出不同环节的优化优先级,主要通过以下个各阶段来进行分析:
01.png2.基于RFM模型找出有价值的用户
由于不同用户对公司带来的收益差别很大,而且根据二八定律20%的做有价值用户能带来80%的收益,因此需要对用户进行价值评价,找到最有价值的用户群,并针对这部分用户进行差异化的营销。
这里参考著名的 RFM 模型对用户进行评价:
02.png
R-Recency(最近一次购买时间)
R指用户上一次消费的时间,上一次购物时间距今最近的顾客通常在近期响应营销活动的可能性也最大,对于APP而言,很久没有购物行为可能意味着用户放弃了APP的使用,重新唤起用户也需要更多的成本。
F-Frequency(消费频率)
F指用户在某段时间内的购物次数,消费频率越高意味着这部分用户对产品的满意度最高,用户粘性最好,忠诚度也最高。
M-Money(消费金额)
M指用户在某段时间内的购物金额,这也是为公司带来价值的最直接体现,而消费金额较高的用户在用户总体中人数较少,却能创造出更多价值,是需要重点争取的对象。
这三个维度互相关联,反映了每个用户的现在价值和潜在价值,将每个维度分成5个区间进行评分,通过计算分数找到最有价值的用户,并对用户进行分类,可以有针对性的不同类型用户采用不同的营销策略
二.理解数据
1. 数据来源
阿里云天池: https://tianchi.aliyun.com/dataset/dataDetail?dataId=649
本数据集包含了2017年11月25日至2017年12月3日之间,约有一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。
时间跨度约为一个礼拜,从周六到下个周日
LOAD DATA LOCAL INFILE "E:\\C-05-数据分析实战y\\taobao_analyse\\UserBehavior.csv"
INTO TABLE user
FIELDS TERMINATED BY ","
LINES TERMINATED BY "\n";
2.各字段含义
03.png注意到,用户行为类型共有四种,它们分别是
04.png
关于数据集大小的一些说明如下
05.png
三.数据清洗
1.观察记录
数据记录达到一亿条,为了方便分析及效率,源数据是已经按照user_id排序好的,取5百万行到8百万行之间的3百万行记录进行分析。
06.png
2.列名重命名
将原有的列名简化为user,item,category,behavior,date
3.删除重复值
用户的购买行为由于时间精确到小时,确实会存在少量用户在一小时内重复购买或浏览统一商品的行为,因此不对此部分数据进行处理。
4. 一致化处理
时间数据中原为时间戳格式,需要将其分为两列,以便研究每日和一段日期内数据变化。
ALTER TABLE user ADD hour CHAR(20);
UPDATE user SET hour=date;
UPDATE user SET date=FROM_UNIXTIME( date,'%Y-%m-%d');
UPDATE user SET hour=FROM_UNIXTIME( hour,'%H');
完成数据清洗后的数据:
07.png
四. 构建模型
1.分析用户使用户行为的漏斗模型
利用AARRR模型分析用户行为,此处数据主要涉及用户刺激和购买转化的环节,通过用户从浏览到最终购买整个过程的流失情况,包括浏览、收藏、加入购物车和购买环节,一个周内的各项指标如下:
访问用户总数(UV):29233
页面总访问量(PV):2685348
平均每人每周访问量为91.8次页面
SELECT COUNT(DISTINCT user) AS UV,
(SELECT COUNT(*) FROM user WHERE behavior='pv') AS PV,
(SELECT COUNT(*) FROM user WHERE behavior='pv')/COUNT(DISTINCT user) AS 'PV/UV'
FROM user;
08.png
跳失率=只点击一次浏览的用户数量/总用户访问量
SELECT COUNT(*)
FROM (SELECT user
FROM user GROUP BY user
HAVING COUNT(behavior)=1) AS a;
09.png
统计时间为一周,只有1个人浏览了一次就离开淘宝,分析记录虽然仅为部分数据,但仍可以看出淘宝拥有足够的吸引力让用户停留app,这也符合日常观察。
用户总行为数漏斗计算
SELECT behavior,COUNT(*)
FROM user
GROUP BY behavior
order by behavior desc;
10.png
11.png
由于收藏和加入购物车都为浏览和购买阶段之间确定购买意向的用户行为,且不分先后顺序,因此将其算作同一阶段,可以看到从浏览到有购买意向只有9.51%的转化率,当然有部分用户是直接购买而未通过收藏和加入购物车,但也说明大多数用户浏览页面次数较多,而使用购物车和收藏功能较少,而购买次数占使用购物车和收藏功能的23.24%,说明从浏览到进行收藏和加入购物车的阶段是指标提升的重点环节。
独立访客漏斗模型计算:
SELECT behavior,COUNT(DISTINCT user) AS '用户数'
FROM user
GROUP BY behavior
ORDER BY COUNT(DISTINCT user) DESC;
12.png
13.png
上面是每一步用户行为的独立用户数,可以看到使用APP的用户中PUR(付费用户占比)为68.2%,用户付费转化率相当高。
2, 不同时间尺度下用户行为模式分析
1)分析一周内每天的用户行为
SELECT date,SUM(CASE WHEN behavior='pv' THEN 1 ELSE 0 END)AS '浏览数',
SUM(CASE WHEN behavior='fav' THEN 1 ELSE 0 END)AS '收藏数',
SUM(CASE WHEN behavior='cart' THEN 1 ELSE 0 END)AS '购物车',
SUM(CASE WHEN behavior='buy' THEN 1 ELSE 0 END)AS '付费数'
FROM user
GROUP BY date
ORDER BY date;
14.png
15.png
可以看到明显不同,从左到右为周一到周日的数据,在平时,工作日时各项指标平稳,而到周末高涨,推测是上班族因工作逛淘宝的时间少,而周末有充足的精力,购买能力也增加。因此平日运营可以将活动集中在周末进行。
2)分析一天内用户每小时的行为
此处取12月1号(周五)当天的用户数据
SELECT hour,SUM(CASE WHEN behavior='pv' THEN 1 ELSE 0 END)AS '浏览数',
SUM(CASE WHEN behavior='fav' THEN 1 ELSE 0 END)AS '收藏数',
SUM(CASE WHEN behavior='cart' THEN 1 ELSE 0 END)AS '购物车',
SUM(CASE WHEN behavior='buy' THEN 1 ELSE 0 END)AS '付费数'
FROM user
where date = "2017-12-01"
GROUP BY hour
ORDER BY hour
取11月28号(周二)当天的用户数据
16.png
取12月2号(周六)当天的用户数据
17.png
上两张图分别时周二和周六的用户行为变化,波动起伏接近,高峰都出现在晚上20点到23点,之后午夜进入低谷,符合大部分人的作息时间。在晚上20点到23点,进行各种直播活动等互动营销手段,可能取得更大的收益。
3, 不同商品种类的用户行为
1)统计浏览次数、收藏次数和加入购物车次数最多的商品。
SELECT item, COUNT(user) AS 'times'
FROM user WHERE behavior='buy'
GROUP BY item
ORDER BY times DESC
LIMIT 30
18.png
列出浏览量前30的商品,排第一的商品item_id为812879,为914次,那是否进入销量榜单呢, 对商品销量和收藏前也进行了统计:
19.png 20.png
在销量榜单中并没有看到浏览量第一和第二的商品, 说明这些吸引用户更多注意力的商品没有很好的转化为实际销量,仅更多的进入收藏中。
21.png
同时浏览量前排的商品均能在收藏量前列中,说明浏览数与收藏的关系更为直接。
2)统计所用商品的购买次数
SELECT times AS "购买次数" , COUNT(item)AS "商品数"
FROM (SELECT item, COUNT(user) AS 'times' FROM user WHERE behavior='buy' GROUP BY item) AS buy_times
GROUP BY times
ORDER BY COUNT(*);
商品购买次数分布:
22.png
根据本次分析的数据,只购买一次的商品有38248种,购买两次的商品有5146种,本次分析的商品有45937种,购买一次的商品占到83.8%,说明商品售卖主要依靠长尾商品的累计效应。而非爆款商品的带动。
4.基于RFM理论找出有价值的用户
由于数据源仅仅为9天的数据,且没有商品的金额,无法统计M值。
计算消费间隔R值,最近消费时间和最大时间(2017-12-03)间隔时间,最近购买时间的区间为0-8,将其分为3档,0-2,3-5,6-8分别对应的R评分0到2
CREATE VIEW pay_B AS
SELECT user, DATEDIFF('2017-12-03',MAX(date)) AS B FROM user
WHERE behavior='buy'
GROUP BY user;
SELECT user, (CASE WHEN B BETWEEN 0 AND 2 THEN 2
WHEN B BETWEEN 3 AND 5 THEN 1
WHEN B BETWEEN 6 AND 8 THEN 0
ELSE null END) AS R
FROM pay_B
ORDER BY R DESC
23.png
计算消费频率F值,付费用户中消费次数从低到高为1-93次,将其分为6档1-9,10-19,20-29,30-39,40-49,50以上,对应F评分分别为0-5分
CREATE VIEW pay_times AS SELECT user,count( item ) AS times from user where behavior = "buy"
group by user order by count( item ) DESC;
SELECT user ,(CASE WHEN times between 1 AND 9 THEN 0
WHEN times BETWEEN 10 AND 19 THEN 1
WHEN times BETWEEN 21 AND 29 THEN 2
WHEN times BETWEEN 31 AND 39 THEN 3
WHEN times BETWEEN 41 AND 49 THEN 4
WHEN times >= 50 THEN 5 ELSE NULL END) AS F
FROM pay_times
ORDER BY F DESC
24.png
25.png
从中我们可以得到用户的RFM分数,用户user_ID为337305的用户综合评分为5分,购买次数为93,是体系中的最有价值用户,综合评分大于4的用户属于活跃的成熟客户,可以积极推送营销信息,对于综合评分为4,2的用户,可以通过传递新品,通知店铺活动信息,对于评分小于2的用户,运营活动可以重点针对这部分用户,提高用户使用产品的频率,可以通过拼团打折、积分兑换等活动唤起用户注意力。
26.png
我们提取出评分最高的超级用户行为数据,发现该用户每天都产生了购买行为,且从未使用过收藏功能,购物车的使用频率极低,并且购买行为在周末达到高峰,可以根据该用户的活跃规律进行相关活动的推送,由于商品种类数据为脱敏数据,很遗憾此处无法分析该用户购买的商品类型。
本文图表数据资料:https://www.jianguoyun.com/p/DW_8Q34Q4pHKBxic7_EC
五. 结论与建议
本文分析了淘宝用户行为数据共300万条,从四个不同角度提出业务问题,使用AARRR模型和BFM模型分析数据给出如下结论和建议。
1.通过AARRR模型分析用户使用的各个环节
a.获取用户
由于数据中没有给出每个用户第一次的登陆的时间,我们暂且把浏览行为视为用户的获取,
b.激活用户
用户行为包括点击、放进购物车、收藏以及购买,由于收藏和加入购物车都为浏览和购买阶段之间确定购买意向的用户行为,且不分先后顺序,因此将其算作一个阶段,从浏览到有购买意向只有9.51%的转化率,当然有一部分用户是直接购买,但也说明大多数用户以浏览页面为主而购买转化较少,此处为转化漏斗中需要改善和提高的环节。
针对这一环节改善转化率的建议有:
(1)优化电商平台的搜索匹配度和推荐策略,主动根据用户喜好推荐相关的商品,优化商品搜索的准确度和聚合能力,对搜索结果排序优先级进行优化。
(2)在商品详情页的展示上突出用户关注的重点信息,精简信息流的呈现方式,减少用户寻找信息的成本
(3)优化加入购物车和收藏按键的触达,用户在滑屏时也能方便触达,增加功能使用的次数。
c.提高留存
淘宝APP的留存相对而言较为稳定,让用户提高、保持使用淘宝电商平台的频率相对而言更加重要。
d.增加收入
使用APP的用户中有61%的付费用户,付费转化率相当高。
e.用户推荐
淘宝本身用户基数庞大,知名度高,个人认为在一二线城市的用户基本已经达到饱和,传播工作需要针对三四线城市的渠道下沉,在这些地区针对用户价格敏感度高的特性开展类似拼多多的拼团转发和打折促销活动,扩大这部分用户的使用率。
2.研究用户在不同时间尺度下的行为规律,找到用户在不同时间周期下的活跃规律
以一周为周期进行波动,一周中的高峰期在周末,符合上班族作息时间中的空闲时期。而平时一天中,在晚十点后出现高峰期。针对高峰期进行营销活动收益最高,此时使用人数最多,活动容易触达用户,营销活动的形式可以通过促销、拼团、直播等形式进行。
3.找到用户对不同种类商品的偏好,找到针对不同商品的营销策略
商品售卖主要依靠长尾商品的累积效应,而非爆款商品的带动。而浏览次数前列的商品甚至没有进入销量前30,说明这些吸引用户更多注意力的商品没有很好的转化为实际销量。
针对浏览量高而销量不高的这部分商品,需要提高的是用户从点击进入商品详情页到最终购买的体验。作为商家端可以从以下几个方面提高销售额:
(1) 商品详情页的实际价格是否相比展示价格偏差过大,有的商家为了吸引用户点击在商品展示页投放的价格具有较强吸引力,但实际价格偏高,在用户心中反而引起反感
(2)详情页的信息流展示是否合理,是否将用户最想看到的部分置于容易看到的位置,便于信息的获取
(3)优化商品展示的形式,利用视频等方式给用户更直观的感受,提高照片的美观程度
(4)评论区评价管理,尤其对于差评区的用户反馈进行认真对待,提高自身服务质量
4.通过RFM模型找出最具价值的核心付费用户群,对这部分用户的行为进行分析
R和F评分都很高的用户是体系中的最有价值用户,需要重点关注,并且活动投放时需谨慎对待,综合评分大于4的用户属于活跃的成熟客户,可以积极推送营销信息,对于综合评分为4~2的用户,可以通过传递新品,通知店铺活动信息,对于评分小于2的用户,运营活动可以重点针对这部分用户,提高用户使用产品的频率,可以通过拼团打折、积分兑换等活动唤起用户注意力。