数据分析方法论

2020-04-18 本文已影响0人 dataTONG

必问问题

订单/流量波动（【业务理解（指标定义，如DAU怎么才是活跃）-指标口径（渠道）-数据产出链路（哪份日志、哪些过滤清洗得来的）】；是否存在恶意的刷流量）、三个常用的app、商业模式（之前产品的cpc和cpm）

1、订单/流量波动（【业务理解（指标定义，如DAU怎么才是活跃）-指标口径（渠道）-数据产出链路（哪份日志、哪些过滤清洗得来的）】；是否存在恶意的刷流量）
1、判断是正常？异常？：数据产生链路、拉长时间轴；2、最大概率法则归因：假期、热点、双11、政策；3、形成闭环：持续跟踪、文档化!!!、邮件化。

2、常用app：
网易云音乐（喜欢每日推荐，吐槽没有听歌识曲和语音输入，以及下面的热门搜索跟我的画像不匹配）、知乎。
如何解决吐槽点？先看热门搜索的点击量，如果较低的话说明虽然位置有曝光但没人点击、确实有问题。
怎样评估这样做带来指标的提升？先小流量（灰度-5%）AB测试，然后慢慢放量，如果效果还不错就全量。

3、工具类产品如何商业化：墨迹天气（首页的天气button是主流量入口、下拉出现咨讯、里面有较多的广告app下载链接，这是一个app带量商业化；时景button有景点、住宿app下载推荐，这是一个自身app高相关的商业化推荐；Me这个button，分生活、娱乐、休闲和游戏四大板块）。

方法论：AB测试（正交性）、最大概率法则、幸存者偏差（当取得资讯的渠道，仅来自于幸存者时（因为死人不会说话），此资讯可能会存在与实际情况不同的偏差。用对照试验和贝叶斯公式来消除幸存者偏差；抛掉对个案的迷信，全面系统的了解才能克服这个偏差）、相关性分析（子产品对大盘的贡献度或影响度——>相关性，并可以进一步作回归分析）等。

二、四大行业数据分析

四大行业数据分析

电商

电商零售的北极星指标：交易额（北极星指标）、首页分发效率、核心转化率/漏斗分析、新用户获取的场景分析；

整体分析（APP引流） + 核心路径分析（漏斗） + 痛点分析（用户）

首页分发效率：CTR【CTR = 点击UV / 曝光UV】和人均访问（点击）页面数【=总方位页面数 PV / 总访问UV】；发布新版本更需要关注上述两个指标。

首页分发效率

互联网金融（数据建模师）

金融行业常用逻辑回归LR
模型的离线效果（实际工作，还是坏账率这个指标最重要）

总结

游戏行业

常规指标

商业化指标

流失分析：渗透率都是针对具体的功能模块。流失定义
商业分析（变现）：看中收入 + 体验游戏

传统销售行业

核心指标：销售额完成率。

传统销售行业的核心指标：销售额完成率

如何分析一个陌生行业

三、具体方法论

1、指标体系搭建方法论：
日功能渗透率=该功能的日点击人数 / 日活
功能渗透率=功能渗透率 / 大盘用户数。
核心指标（日活 VS 有效用户量：打开后几秒算活跃）

用户画像 + 行为特征
2、流量分析方法论（渠道、转化、价值、波动）

流量分析：渠道、转化、价值、波动
前期看有效用户数（排除刷量，即除了看量级，还要看主动行为的用户）、次留；中期看次日、7日、30日留存；后期看ROI

前期看有效用户数、次留；中期看次日、7日、30日留存；后期看ROI
数有没有错（数据采集与统计口径）；用户行为、内容与功能/产品；

波动：日活与留存
3、路径分析（漏斗分析不能满足实际需求）方法论

漏斗分析（先有假设再数据验证） VS 路径分析（先有数据再验证假设）
4、产品分析（竞品分析）方法论
画像
产品：生孩子；运营（用户运营：提新增、拉留存、降流失；用户运营需要内容运营和活动运营来支撑）：养孩子；数据分析：持续观察孩子的指标。
5、营销活动（拉新、促活、带？？）分析方法论
数据分析师主导埋点（含字段名、埋点位置、上报方式）
建议指标：新增、首次、低活（结合业务来定义）带动；并关注上述用户的后续留存。
6、用户流失分析（增长分析）方法论——摩拜和滴滴的案例（漏斗思维分析获客和激活；留存与活跃）
增长黑客AARRR转化漏斗（建立产品壁垒）：

拉新角度（流量思维、渠道思维；烧钱、野蛮增长的时代）：AARRR转化漏斗
留存角度（产品 / 用户思维：做好产品与运营服务）：留存——变现——推荐——拉新——激活。
ROI思维（未来资本越来越理性）：变现——推荐——拉新——激活——留存。

分析师的任务：做规模和带收入（独立思考，跳出现有模型）、多研究用户数据。

常用的用户增长方法：魔法数字；优化渠道结构、提升新增用户留存；流失用户召回。
实际很好的2个增长思维：北极星指标：MAU=新增+老=本月新增+上月新增留存+上月老用户留存+上月老用户回流；AB测试。

四、专题分析标准化流程

思维（建立逻辑树）、技术、时间管理、ppt、演讲能力。

问题定义与拆解：用户下跌原因的逻辑树拆解

用户下跌原因的逻辑树拆解.PNG

分析角度

结构分析（各渠道）、对比分析（含AB测试）、时间序列分析（二次拆解找波动项）、相关性分析、机器学习。实际上所有的分析都是基于用户的基础属性和行为属性。

围绕5W1H构建分析角度；围绕5W1H构建用户画像？？？

真实专题报告撰写

PPT要有数据结论，结论是基于业务方给出的落地项，落地项要非常具体（含时间、人和语气效果）。——基于XX数据，发现XX结论，基于这个结论的建议是XX，基于这个建议的产品落地项是XX。

专题报告标准化组成

五、数据分析师的个人素养

行业分析

界定范围（产业链图谱，在全局视野下找切入点）、市场规模（交易额GMV描述、用户数描述）、社会热点事件、头部玩家（产品分析、用户分析）、未来预测。

行业分析：问题的识别与拆解

数据仓库

埋点（主动性+文档化）：APP日志采集中的埋点，前期建立埋点规范，后期不投入太多时间、但要文档化；数据分析师主导埋点（含字段名、埋点位置、上报方式）。
建模：建模步骤头条的ODS层数据（即日志）头条的DWS层数据头条的DM层数据
数据管理
计算管理；存储管理；权限管理。

计算管理；存储管理；权限管理

用户研究（快输出——2周内；线上 / 线下调研）

横坐标是态度和行为、纵坐标是定量与定性（定性研究侧重用户分类、定量研究侧重样本量和代表性）来划分四象限。

用户研究贯穿项目的前中后期

时间管理

略

非常好的博客：Spring数据分析思维课
 【数据分析师八大能力】
分析思维第二篇：数据指标体系
 [转帖]AARRR已是过去式，而RARRA才是更好的增长黑客模型
 【互联网产品经理入门】

A/B测试与假设检验

假设检验.PNG

分流模型：通常网站会利用分域、分层（将流量复用）、分桶（圈定用户群：保证用户的完全随机且互斥）的机制保证流量高可用以及分流的灵活性和科学性。

分域、分层（将流量复用）、分桶

分桶（圈定用户群：保证用户的完全随机且互斥）：
做实验很重要的一点就是圈定用户群，要圈定两组完全随机且互斥的用户，一组分配给A，一组分配给B ，比较初期的一种做法是根据用户唯一tag(一般使用userid、deviceid,cookie等)对1000取模分成1000个桶，然后选择不同的桶分配给A和B。
流量是有限的，实验数量可以无限的，如果我们选用了60%的流量做了实验一，那只剩下40%的流量做实验二，那实验三怎么办呢？
分层（将流量复用）：
分层是为了将流量复用，即一个用户可以处在多个不同的层上，不同的层的流量完全打散，互不影响。具体来说，在上一层001桶的所有流量，理论上应该均匀地随机地分布在下一层的1000个桶中。常用做法是通过页面来分层。
所以在实验设计时：一般将不同页面的多个功能实验（一般互无影响），放在不同的层上；
而将同一页面的多个功能实验（一般互有影响），放在同一层上的不同实验；从而保持两个实验的流量完全独立；通过可重叠的分层分桶方法，一份流量可通过N层可以同时参与N个实验，而且实验之间互不干扰，显著提升流量利用率。
通常在做实验时我们会考虑一些先决条件，例如我只针对上海地区的用户做实验？此时该怎么控制呢？
分域：
在正常的实验过程中，我们一般会从总体流量中按照一定的维度去划分一个个流量区域，来做实验，比如一部分实验针对北京用户，一部分针对上海用户。如此，就引出了另外一个概念，“域”。这里划分出的流量池就是一个域，在这个域里还可以进行分层实验，不同域之间流量隔离，所有的流量域加起来共享100%流量。

抽样：应该保证同时性（分流应该是同时的，测试的进行也应该是同时的）、同质性（设备特征、用户属性、用户行为、用户付费特征（消费习惯及贡献度））、唯一性（要求用户不被重复计入测试）、均匀性。
如何判断是不是真的同质？可以采用AAB测试。抽出两份流量进行A版本的测试，进行AA测试，并分别与B版本进行AB测试。通过考察A1和A2组是否存在显著性差异，就可以确定试验的分流是否同质了。

确定检验类型：在判断用什么检验的时候，首要考虑的条件是样本量（检验类型：小于30即T检验），其次是总体服从的分布（抽样分布类型：是否正态分布）。

样本容量大时（统计学上一般认为 n≥30），总体的均值和标准差未知，不要求总体近似服从正态分布。根据中心极限定理，样本容量大，则样本均值的抽样分布服从正态分布，总体标准差可以用样本标准差来估计，可用Z检验；
当样本容量小于30，且满足总体近似服从正态分布时，如果总体标准差已知，可用Z检验；
当样本容量小于30，且满足总体近似服从正态分布时，如果总体标准差未知，可以用样本标准差去估计总体标准差，由此可用T检验；
当样本容量小于30，且不满足总体近似服从正态分布，不能用Z检验和T检验。

改进版：若总体标准差已知（无论样本大小）都用Z检验；若总体标准差未知，都用T检验。不过当样本量够大的时候，T分布也近似于Z分布了，所以最后的结果不会差很多。T分布其实是小样本的Z分布。一个样本的自由度越大，样本方差就越接近总体方差，T分布也就越接近Z分布。因此T分布的形状随自由度的变化而变化，自由度越大，越接近正态分布

T检验的类型
①单样本的T检验：
检验单个样本的平均值是否等于目标值。例如：某大学的学生平均身高是否大于全国平均身高167cm；
②配对样本均数T检验：
检验相关或配对观测之差的平均值是否等于目标值。例如：为了检测减肥药是否起作用，随机抽样出20名测试对象，记录每个人服药前和服药后的体重。（同一组样本。问题：有残留效应）；
③两独立样本均数T检验：
检验两个独立样本的平均值之差是否等于目标值。检验闯关游戏教学方法是否有效，分别在两组学生上进行效果测试。

指标选定

转化率检验（卡方检验） eg：展现点击转化率，留存……
均值检验（T检验） eg：人均使用时长……

实验周期

一般两周。前3天在实验阶段，参考价值不大（不过能看出实验是否有问题）；4-10天数据相对稳定，可作为测试结论。

结果比较

最后根据假设检验的结果，判断哪些版本较之原版有统计意义上的差异，并根据效应量选出其中表现最好的版本。

测试存档（复盘）

指标体系与统计口径

AB测试-假设检验的示例

案例1：今日头条app界面的广告位，放在第四位比较好。

项目简介：案例数据是对web新旧页面的A/B测试结果，目标是判断新旧两版页面在用户的转化情况上是否有显著区别。
数据描述与来源：数据来自Udacity的示例案例，数据共计近30万条，可能有意制造了一些脏数据。数据集含5个字段：用户的 user_id、时间戳 timestamp、分组 group（实验组or对照组）、展示的页面版本landing_page（新版or旧版）、该用户是否转化 converted（0-未转化 or 1-转化）。

假设检验（A/B测试）
AB test的一些了解
 【数据分析专题】-常见框架（模型）