数据化运营速成手册笔记
数据化运营速成手册
胡晨川
这是一本基于excel 2016的数据分析和运营技巧书
让读者正确地理解并应用数据分析
是这本书的目的
1. 全面认识数据图表
1.1 数据图表的基本构成
-
维度和指标
Measure/Dimension
分类变量/有序变量/数值变量/逻辑变量
-
写标题的套路
用图表直观地反映信息,代替大段的文字和复杂的逻辑陈述,提高信息传达的效率
标示性标题/描述性标题/指导性标题
考虑:
* 我最近做的重要决策大致上会反映在哪几个指标?
* 最近我的第一关键指标是什么,与它最相关的指标是哪几个?
* 业务的全局变化如何,与过去我们有哪些方面的改进或者退步?
* 目前的那些执行动作需要调整,对应的指标是什么?
-
图形元素的本质
几何对象和图形属性
-
坐标轴是传达信息的关键
坐标轴上的变化,能让数据撒谎
-
图例的位置
告诉读者各个图形元素分别代表什么指标
-
辅助线能够突出某些信息
出现在图表中本身不表达任何既有数据,但能帮助观察者形成认知和推断的图形元素
数据标注辅助线/数据推断辅助线
-
数据标签需谨慎使用
1.2 控制数据图表中的信息量
可怕的不是出错,而是产生混淆
图形元素数、辅助线数、辅助坐标轴数一共不超过5
1.3 不需要作图
-
短期内的了解型需求
-
多维度相互结合的需求
表格更有用
-
作图传达的信息非常有限时
-
图表中的数据存在复杂的逻辑关系时
2. 建立数据图表的认知
2.1 利用散点图探究数据间的关系
散点图最核心的价值在于发现变量间的关系
-
最基本的散点图样例
-
散点图的制作
-
变种1: 添加平滑线
-
变种2: 利用气泡图观察更多指标间的关系
5个变量是二维散点图的极限
-
变种3: 用分类矩阵形成决策
波士顿矩阵,根据
相对市场占有率
和销售增长率
两个维度衡量企业的各种产品 -
散点图的局限性
2.2 利用柱形图将对比做到极致
柱形图的核心思想就是对比
-
利用累加柱形图对比数据结构的变化
有对比才有信息
-
多指标组合对比
-
用平均值优化单指标的对比
-
用瀑布图观察总量分解后的对比
-
如何正确对比数值指标与比率指标
柱形图与折线图结合的表达出一个指标的数值和变化率,保证刻度线一致,横坐标表示时间
2.3 用折线图观察时间序列数据
折线图核心思想是趋势变化
-
如何观察趋势
-
利用趋势线
-
趋势变化的速率是否满足需求
-
波动情况
-
指标的周期性变化
-
关注极值
-
关注结构性变化
-
-
探寻趋势变化原因
-
定位问题
-
梳理事件
-
分析逻辑关系
-
得出结论
认识到记录的重要性。有清晰的时间记录,在我们对时间序列数据进行回溯时才有据可查
-
2.4 利用面积图观察数据结构的变化趋势
-
动态的观察数据结构的变化: 堆积面积图
-
用于队列分析: 堆积面积图
2.5 用雷达图进行静态的多维对比
2.6 其他类型图表
-
使用饼图的6个坑
-
提升视觉冲击力: 树状图
-
量化流程各环节间的转化率: 漏斗图
数据图表进阶
3.1 数据图表到底是什么
-
分清楚数据中的维度和指标
-
几何对象就是点线面的结合
-
标注和坐标系
-
通过分面来展示数据的子集
3.2 如何正确地选择图表
3.3 数据图表中的细节
-
图表背景和绘图区背景
-
坐标轴
坐标轴是否展示出了足够的差别
范围是否大于数据序列的4倍标准差
-
灵活使用辅助线
-
线性趋势线的应用
-
应用移动平均趋势线做时间序列的预测
在时间序列数据中,N期移动平均就是以期值为终点,计算过去N个值的算术平均数
-
添加信息增强线
-
用标注线指示必要的信息
3.4 让图表升级的高级技巧
-
运用组合图表增加信息承载量
数据可视化的目的是减少观察者思考的时间
-
运用子母图增加图表中的信息量
-
条件格式中的几项实用功能
-
使用迷你图表压缩空间
-
用不等宽技术优化柱形图和条形图
-
用Bullet图进行绩效评价可视化
4 数据化运营的基础知识
4.1 最基本的数据获取能力
-
认知数据库的一般构造
-
能阅读最基本的取数代码
-
用excel获取数据
4.2 快速认知数据
-
仔细审核数据源的质量
-
提升数据集的质量
-
清理垃圾数据
-
处理空值的技巧
-
用最接近的数据替换它
-
用平均值替换
-
合理推断。比如用移动平均数
-
-
异常值与异常字段的处理
数值特别夸张,文本特别长,NULL, 不匹配的数据类型
-
-
统一数据类型与单位
-
描述统计分析
-
观察数据的一般水平
-
中位数
-
众数
-
加权算术平均数
-
-
观察数据的稳定性
任何风险衡量的模型,其本质都离不开衡量波动性,即方差与标准差
衡量两个数据序列间相互波动的情况是有办法的,即协方差
-
初步认知数据的分布特征
最大值,最小值,中位数,算术平均数,75%分位数和25%分位数
-
深入认知数据的分别特征
频率分布图
-
-
利用相关系数理解数据之间的关系
-
通过多维交叉深入认知数据集
多维分析就是通过多个维度的相互组合,发现数据内深层次的信息
4.3 几套有用的分析思维框架
建立起体系化思维。有套路
-
66法则与SQVID原则
从谁/什么?有多少?在哪里?什么时候?怎么样?为什么? 5W1H
SQVID:
简单/精细(Simple/specific) 定性/量化(qualitative/quantization) 愿景/执行(vision/validate) 个别/对比(individual/compare) 变化/现状(delta/status)
-
麦肯锡七步成诗
-
清晰的陈述要解决的问题
-
问题要具体存在
-
问题需要可执行
-
-
使用逻辑树来分解问题
MECE ( Mutually Exclusive Collectively Exhaustive)
-
淘汰非关键问题
找到那些数量上只占20%,影响力却是80%的重点问题
-
制定详细的工作计划
每个to do都必须有负责人和截止时间
-
进行关键分析
设立假设,然后通过数据进行检验
-
综合分析结果,建立论证
寻找到一条逻辑主线, 将各个分散的结论和信息进行组合
-
写一个精彩的故事打动决策者
-
4.4 创造指标应用指标
-
什么是指标
indicator
过程型指标
一般需要高频的跟踪(甚至是实时), 根据指标的变化,及时做出调整
结果型指标
一般从活动中抽象而来,适用于运营活动的评价
-
如何设计高质量的指标
信度
指标衡量某事物的准确性、精确性和稳定性
效度
指标衡量所获得的信息,确实是研究者所期望获得的信息
计算简单快速、易理解、泛化性强,对业务敏感,可持续性
-
指标组合: 综合指数
加权综合指数
各个指标先标准化,转化为统一单位
-
需要关注的核心指标
-
第一关键指标法构筑指标体系
找到第一关键指标,然后逐层分解
-
套用AARRR模型
用户获取(Acquisition) -> 用户激活(Activation) -> 用户留存(Retention) -> 用户价值转化(Revenue) -> 用户推荐(Referral)
用户生命周期价值
将从单个用户端获取的收入分摊到使用产品的每一天,将所有活跃用户每天分摊到的金额进行汇总,就是当天的总的用户价值;若当天用户不活跃,将他分摊的金额计算为负值,将所有负值进行加总,就是损失的用户价值。用柱形图将这两个方向的数据表现出来
-
pipeline衡量销售流程
一种漏斗,衡量整个管道的转化效率
-
4.5 运营活动的量化
-
优秀的运营活动的诸要素
-
明确的活动目标和预算
-
清晰的响应关系和执行流程
-
可靠的过程型指标
-
准确的结果型指标
-
科学合理的效果评价方式
-
知识的沉淀
-
聪明的负责人
-
-
需要哪些过程型和结果型指标
活动与指标最好是一对一关系
-
如何评价运营活动
活动是否有效
为达成目标我们的投入产出比是否合适
-
从纵向和横向两个角度全面对比
活动前后的数据对比,一定要跨满一个业务周期
基本流程
-
产生问题
-
利用ICE方法评估方案
Impact(影响面大小) Confidence(提出者对执行效果的信心) 和 Easy(执行的难易度)
-
设计指标
指标要对问题敏感
-
准备工具
-
选择对象
-
随机分组
-
假设检验
-
形成结论
-
传达部分
无效也是一个有价值的结论
-
-
一种更严谨的测试效果量化方法:DID
-
对比施予活动这个时间点后的实验组和对照组在指标上的差别
-
对实验组和对照组指标的数值差别进行显著性检验,看是否有足够里有判断他们是存在差别的
-
difference in difference
-
-
相似活动间效果的对比
目标相同,时间相近可以对比
-
运营活动量化的总结
4.6 数据化运营的思维方式
-
信度和效度思维
-
平衡思维
-
分类思维
-
矩阵思维
重要-紧急矩阵
-
管道/漏斗思维
漏斗的环节不该超过5个,漏斗各环节的百分比数值、量级不要超过100倍
-
相关思维
-
远近度思维
确定好核心问题后,分析其他业务问题与该核心问题的远近程度,由近及远,有计划地分配自己的精力
-
逻辑树思维
下钻(分解)和上卷(汇总)
-
时间序列思维
-
距今越近的时间点,越要重视
-
同比
-
异常值出现时,必须重视
通过添加平均值线和平均值加减一倍或两倍标准差线观察
-
-
队列分析思维
按一定规则,在某些维度上将观察对象切分,组成一个观察样本,然后观察这个样本的某些指标随着时间的演进而产生的变化
-
循环/闭环思维
不要用漏斗来衡量一个循环
-
测试/对比思维
-
决策前尽量做对比测试
-
测试时要注意参照组的选择
-
-
指数化思维
遵循独立和穷尽(MECE);注意各指标的单位,标准化之;权重和要等于1
-
极端化思维
极端化是一种简化
-
反向思维
关注反常情况
4.7 运营数据报告必备要素
-
关键信息优先
-
只有单向的逻辑线
-
有选择地进行维度下钻
-
不要展示过多的数据图
精简图表
-
附上明细数据集和制作过程
-
给出实质性的建议
5 快速提升量化分析能力
5.1 朴素贝叶斯模型
概率
0和1之间的数字,表示特定结果发生的可能性
几率
某一特定结果发生与不发生的概率比
似然
两个相关的条件概率之比。给定B发生的情况下A发生的几率和A的整体几率之比
贝叶斯公式
P(A|B) = P(B|A) * P(A)/P(B)
-
全概率公式
P(E|P) = P(P|E) * P(E) /[P(E)P(P|E) + P(~E)P(P|~E)]
-
让大数定律给你自信
实验次数足够多时,某事件发生的概率一定会收敛于他的基本概率
-
窥一斑而见全豹:中心极限定理
一个大型样本的正确抽样与其代表的群体存在相似关系
5.2 使用假设检验进行理性的推断
-
统计分布是一切推断的基础
这世界上的所有事件,其结果都遵从相对有限的几个概率分布
正态分布;指数分布;卡方分布;BETA分布;POSSION分布;二项分布;T分布;F分布
-
以正态分布为例,阐述假设检验的过程
把一个不容易被推翻的假设当作原假设
拒绝接受原假设,取决于我们认为在原假设成立的前提下,实验所得出的结论对应的概率为多小时是不正常的
-
双侧检验与单侧检验
原假设“B版本的跳出率不比A版本低”,即"B>=A?"。这样的原假设是有方向性的,即大于或者小于,这种假设被称为单侧检验。
原假设是"B=A?", 其备择假设就是"B!=A", 称为双侧检验
-
假设检验的细节补充
-
标准差与标准误差的不同
-
假设检验的检验指标和其对应的分布并不是局限的
-
大数据不能替代统计推断,也不能替代假设检验
-
关注两类错误
拒绝了该接受的假设;接受了该拒绝的假设
针对某个业务问题建立一个原假设,然后努力手机信息去挑战它,如果没有充分的证据证明原假设错误,那么就选择接受它
-
5.2 利用方差分析辨别方案的有效性
-
用户激活措施的有效性判断
方差分析的前提
-
每一组所对应的总体服从正态分布
-
各总体的方差相同
方差齐性分析检验
-
从每一总体中抽取的样本是相互独立的
-
-
运用置信区间增强数值估计的可靠性
数据若服从T分布或者正态分布,它的95%置信区间就是点估计值加减1.96个标准差
-
两两比较寻找最精确的结论
-
理解方差分析的思维
5.4 浅谈回归分析的应用
-
因变量与自变量的相关关系是回归的基础
只有在相关系数搞得两个指标之间建立回归模型才有意义
-
线性回归建模的详细过程
-
重视回归建模前的分析过程
数据分析,不仅仅是对建模后的结果进行解释,而是从业务理解,建模前的逻辑推理,模型的适用性分析,数据认知等,直到建模后的结果解释,一整套的过程
-
观察因变量与自变量的相关关系并进一步清洗数据
-
回归建模的结果怎么来
最小二乘估计
-
利用现实数据建立模型并解读结果
-
查柜回归模型的 Adjusted R Square,即拟合优度
-
观察方差分析板块中的结果
-
需要看回归模型的系数
-
利用多元回归改进模型
-
-
-
线性回归分析的注意点
5.3 用时间序列分解模型观察波动
-
怎样观察时间序列数据
-
X轴和Y轴
-
起点和终点
-
观察极值
-
转折点
-
周期性
-
波动性
-
与参考性的对比
-
-
何为时间序列分解
-
T 长期趋势
-
S 季节变动
-
C 循环变动
-
I 随机波动
-
-
时间序列分解的步骤解析
-
用移动平均数分离出显性的周期性波动
-
将业务周期效应和不规则变动进行区分
-
观察数据波动的拐点,将时间序列分段
-
利用线性回归,基于移动平均数计算长期趋势
-
分离出循环效应和随机波动
-
时间序列数据的预测值就是 长期趋势 + 循环效应 + 周期效应
-
检验时间序列分解的效果
-
时间序列分解方法的应用局限性
5.6 如何优化调查问卷
-
态度型问题,增加选项以支撑量化分析
包含中间项, 即填写中间项的人表示没有态度
-
问题要有必要切贴合业务需求
-
设置过滤器,识别无效回答
设置互证的问题,即过滤器
-
避免双重问题和一重半问题
双重问题即一个提问隐含两个问题
一重半问题即某个选项实际上暗含了两个甚至多个选择
-
动态地调查,设置问题库以保障多次调查的质量
6 科学地决策
运筹学问题
6.1 从数据中形成决策
管理科学是将定量因素(quantitative factor) 有关的管理问题通过应用科学的方法(scientific approach)辅助制定管理决策(managerial decision making) 的一门科学(discipline)
6.2 线性规划是什么
线性规划是应用数据模型对所研究的问题进行表述
线性是指建模过程中的数学表达式的形式,即线性方程组
规划就是要确定一组结论(一组数字),而不是一个结论(一个数字)
线性规划一定要有目标,要有决策选项,要有约束条件,要有决策选项对目标的贡献,要有量化指标或者数字依据
线性规划只是规划求解方法的一个细分项,还有整数规划,非线性规划,目标规划
6.3 线性规划建模的操作过程
-
建立逻辑清晰的表格
-
设置输出单元格 目标单元格和可变单元格之间的运算关系
-
设置线性规划建模参数
6.4 如何从数据中形成决策
6.5 4类典型且实用的线性规划模型
资源分配模型
成本收益平衡模型
网络配送模型
混合模型
6.6 线性规划模型小结
取决于我们有没有能力将现实问题抽象为线性规划问题
7 应用优化的工具
8 工作经验杂谈
对业务的理解和思考,永远高于分析技术的选择