数据分析的套路
2018-08-31 本文已影响0人
DeepMine
一、从数据分析定义看
关键:分解
中心思想:“拆”
二、基于统计分析
1、拆指标
1)分布分析
(1)均值、方差、相关系数、线性回归都相同
安斯库姆四重奏(Anscombe’s quartet)
(2)数据探索EDA
(3)直方图、散点图等
2)因素分解
(1)横向因素拆分,如财务的“杜邦分析法”
(2)纵向阶段拆分,如运营的“漏斗分析法”
3)趋势分解
(1)趋势,如MA移动平均线
(2)周期,如依某个时间粒度探索周期性,或傅里叶变换
(3)异常,如6Sigma
(4)波动,随机波动,正态分布
2、拆维度(数据)
1)分组分析
(1)混合统计易导致差异化特征淹没在汇总数据中
(2)方法:
a、简单分组
b、分箱分析
c、决策树
2)个案分析
3)异常分析
(1)离群点分析
(2)方法:
a、IQR
b、异常检测算法,如IF,1SVM等
3、综合法
1) 断代分析(Cohort Analysis):分组+趋势
从一个时间跨度(生命周期)来观察不同用户分组的行为变化趋势。
三、基于机器学习
1、聚类
2、分类