3-用户增长分析-用户规模预测
预测是预计未知事件的一门科学与艺术,包含采集历史数据,它可以是对未来的主观或直觉的预期,也可以是使用某些数学模型来外推,也可以是两者的综合。一般来说,对业务的深入理解并结合数据模型,并在预测过程中逐步调优,即可得到较为准确的预测结果。
预测未来一段时间将会有多少用户数?
-1- 用户规模预测有哪些方法论
预测类型包括事件预测及时序预测,本文重点关注时序预测,即与时间维度相关的序列预测。
时间序列预测分为传统的时序预测和机器学习方法。
传统的时间序列方法通过建立适当的数学模型拟合历史时间趋势曲线,根据所建模型预测未来时间序列的趋势曲线,常见模型包括指数平滑、ARMA,ARIMA,VAR,TAR,ARCH等。本文主要阐述传统时序预测方法中较为常见且易实现的方法。
(1)增长率方法
增长率预测方法,是指根据预测对象在过去统计时期内的平均增长率,类推未来预测值的一种简便算法。计算公式如下:
平均变化率(2)时间序列模型方法
时间序列是指同一现象在不同时间上的相继观察值排列而成序列。展示研究对象在一定时期内的变动过程,从中寻找和分析事物的变化特征、发展趋势和规律。常用的预测模型有指数平滑模型及ARIMA模型。
一、指数平滑模型
指数平滑模型指任一期的指数平滑值是本期观察值与前一期指数平滑值的加权平均
二、ARIMA模型
ARIMA模型全称为差分自回归移动平均模型,是指将非平稳时间序列转化为平稳的时间序列,然后将因变量的滞后值及随机误差项的现值与滞后值进行回归建立的模型。ARIMA模型根据原序列是否平稳以及回归中所包含的部分不同,包含移动平均过程(MA)、自回归过程(AR)、自回归移动平均过程(ARMA)以及ARIMA过程。关于ARIMA模型的识别,我们主要用到两个工具:自相关函数和偏自相关函数及其各自的相关图。
1、平稳时间序列的概念
如果时间序列的均值、方差和子协方差都不取决于时刻 t (均值/方差/协方差 恒等=平稳),则称时间序列上是弱平稳或协方差平稳,其满足如下3个性质:
均值/方差/协方差 恒等=平稳简单的说,一个弱平稳时间序列的均值和方差都是常数,并且它的协方差有时间上的不变性。
2、ARMA模型
如果时间序列式它的前期值和前期值随机误差项的线性函数,即可表示为:
ARMA 模型其中有 p个自回归项和q个移动平均项,那么它就是一个ARMA(p,q) 过程,代表一个常数项。
3、ARIMA模型
以上讨论的时间序列模型建立的假定是所考虑的时间序列是平稳的,但许多经济时间序列是非平稳的,如果将一个时间序列差分d次后可变为平稳序列,然后用ARMA模型作为它的模型,则称原序列为ARIMA(p,d,q)即为差分自回归移动平均模型。利用ARIMA模型进行分析有以下四个步骤:
第一,识别p,d,q值。利用相关图和偏自相关图可解决此问题。
第二,估计模型中所含自回归和移动平均项的参数。一般使用方法为最小二乘法。
第三,检验模型对数据拟合效果。一般检验方式为模型所估算出的残差是否为白噪音。
第四,预测。可利用拟合的模型进行预测,特别是短期预测。
上述为用户规模预测的常用理论方法。在实际应用中,可结合业务场景进行调整。
-2- 用户规模预测实例
A公司是一家专做网上视频课程的公司,用户在其app上注册后,可免费看一些视频课程,但如需观看一些核心课程,则需单独购买视频或者购买VIP服务。现在我们要预测购买VIP服务的用户规模。
依据该公司业务特点,预测用户规模的方法整理有三项:
第一,知己知彼,百战不殆。按用户构成或业务逻辑进行拆解,先按细分项分别预测,最终汇总成总体值。第二,寻找标杆,渗透计算。寻找与用户规模强相关的典型参照项,根据参照项与用户规模的关系预测。第三,选择工具,精耕细作。用户规模如有较长时间的数据沉淀,可以选择目前已发展成熟的时间序列建模的方式寻找数据规律,结合业务场景进行调整。
基于该业务的VIP用户规模预测思路:
用户规模预测思路图以2016年Q1-Q2的A公司VIP用户规模预测为例,详述如上三种分析方法的使用。
月度VIP用户数规模趋势图上图为该公司月度VIP用户数规模趋势图,可以看出VIP用户除2014年9月至2014年12月波动较为明显之外,其他时间段的增长较为匀速平缓。
3.1 基于VIP用户数构成拆解预测
从VIP用户的构成来看,可以拆解为:当月VIP用户数=当月开通用户数+上月VIP用户数*VIP用户留存率。按如上公式拆解是因为VIP的留存用户占比较高,另留存率趋势较为稳定。当月开通用户数相对波动较明显(易受业务运营活动的影响)。
一方面,VIP开通用户数趋势如下图,波动较明显。
此处采用两种方式
第一,近12个月的环比增长率均值作为下一期的预测增长率参考;
第二,采用2015年1-6月同比2014年1-6月的增长率均值作为预测增长率参考(此处增长率基准值只是提供一个参考标杆,具体可根据业务理解及历史数据趋势做调整)
此处两种方式分别定义为悲观预测和乐观预测,给到开通量预测结果为一个区间值。
当月VIP开通用户数规模趋势图另一方面,上月VIP用户留存率基本稳定,故可计算当月的留存用户。计算结果如下图
上月VIP留存用户数规模趋势图汇总如上两个部分,上月留存用户与当月开通用户之和即为当月VIP用户规模预测结果,如下图所示,预测给出乐观与悲观区间值。
基于VIP用户构成拆解预测的用户规模趋势图3.2 基于参照预测
A公司的VIP用户与app注册用户呈强正相关关系,VIP用户的渗透率较稳定。故可将注册用户预测作为VIP用户预测参考。同理参照同环比增长率均值作为预测参考值,得到注册用户2016年Q1-Q2的预测值范围。
app注册用户趋势预测图在注册用户预测基础上,参照VIP与注册用户的渗透率,可预测出月度VIP用户数。如下图所示,预测给出乐观与悲观区间值。
基于注册用户渗透率预测的月度VIP用户规模趋势图3.3 基于时间序列方法的建模预测
时间序列是同一现象在不同时间的观察值形成的数据,如预测对象已有较长时间的数据沉淀,则可参考时间序列建模的方式进行预测。
使用时间序列模型需要注意的是:第一,前期序列相关性检验很重要(DW、相关图、LM检验等)。第二,指数平滑法与ARMA均为平稳时间序列相关模型。ARIMA虽然通过差分将非平稳转化为平稳进行建模,但许多经济变量差分后失去了原有意义。第三,模型永远是辅助,更需要结合实际业务。
本文使用SPSS对A公司月度VIP用户规模进行预测,对比ARMA模型预测结果后,选择的模型为winters加法模型,结果如下图
时间序列建模的VIP月度用户规模趋势图3.4、三项预测结果实际准确率
下表1为如上三种预测逻辑的实际数据验证结果,可以看出:整体来说,VIP使用注册用户渗透率预测效果更好。另外,需要注意季节性因素的影响,例如2016年2月份为春节月份,做预测时需要考虑该季节因素。
表1月度VIP用户数预测结果验证总结
本文主要介绍了VIP用户规模预测的三种方法,如需做收入的预测,可在用户规模的基础上结合用户付费arpu来粗略估计。
预测是预计未知事件的一门科学与艺术,包含采集历史数据,它可以是对未来的主观或直觉的预期,也可以是使用某些数学模型来外推,也可以是两者的综合。一般来说,对业务的深入理解并结合数据模型,并在预测过程中逐步调优,即可得到较为准确的预测结果。