学习ing

数据分析方法论

2020-04-18  本文已影响0人  dataTONG

【面经】数据分析岗_面试题整理总结

必问问题

订单/流量波动(【业务理解(指标定义,如DAU怎么才是活跃)-指标口径(渠道)-数据产出链路(哪份日志、哪些过滤清洗得来的)】;是否存在恶意的刷流量)、三个常用的app、商业模式(之前产品的cpc和cpm)

1、订单/流量波动(【业务理解(指标定义,如DAU怎么才是活跃)-指标口径(渠道)-数据产出链路(哪份日志、哪些过滤清洗得来的)】;是否存在恶意的刷流量)
1、判断是正常?异常?:数据产生链路、拉长时间轴;2、最大概率法则归因:假期、热点、双11、政策;3、形成闭环:持续跟踪、文档化!!!、邮件化。

2、常用app:
网易云音乐(喜欢每日推荐,吐槽没有听歌识曲和语音输入,以及下面的热门搜索跟我的画像不匹配)、知乎。
如何解决吐槽点?先看热门搜索的点击量,如果较低的话说明虽然位置有曝光但没人点击、确实有问题。
怎样评估这样做带来指标的提升?先小流量(灰度-5%)AB测试,然后慢慢放量,如果效果还不错就全量。

3、工具类产品如何商业化:墨迹天气(首页的天气button是主流量入口、下拉出现咨讯、里面有较多的广告app下载链接,这是一个app带量商业化;时景button有景点、住宿app下载推荐,这是一个自身app高相关的商业化推荐;Me这个button,分生活、娱乐、休闲和游戏四大板块)。

方法论:AB测试(正交性)、最大概率法则、幸存者偏差(当取得资讯的渠道,仅来自于幸存者时(因为死人不会说话),此资讯可能会存在与实际情况不同的偏差。用 对照试验 和 贝叶斯公式 来消除幸存者偏差;抛掉对个案的迷信,全面系统的了解才能克服这个偏差)、相关性分析(子产品对大盘的贡献度或影响度——>相关性,并可以进一步作回归分析)等。

二、四大行业数据分析

四大行业数据分析

电商

电商零售的北极星指标:交易额(北极星指标)、首页分发效率、核心转化率/漏斗分析、新用户获取的场景分析;


整体分析(APP引流) + 核心路径分析(漏斗) + 痛点分析(用户)

互联网金融(数据建模师)

互联网金融(数据建模师)
金融行业常用逻辑回归LR
模型的离线效果(实际工作,还是坏账率这个指标最重要
总结

游戏行业

常规指标
商业化指标

传统销售行业

核心指标:销售额完成率。


传统销售行业的核心指标:销售额完成率 如何分析一个陌生行业

三、具体方法论

1、指标体系搭建方法论:
日功能渗透率=该功能的日点击人数 / 日活
功能渗透率=功能渗透率 / 大盘用户数。
核心指标(日活 VS 有效用户量:打开后几秒算活跃)

用户画像 + 行为特征
2、流量分析方法论(渠道、转化、价值、波动
流量分析:渠道、转化、价值、波动
前期看有效用户数(排除刷量,即除了看量级,还要看主动行为的用户)、次留;中期看次日、7日、30日留存;后期看ROI
前期看有效用户数、次留;中期看次日、7日、30日留存;后期看ROI
数有没有错(数据采集与统计口径);用户行为、内容与功能/产品;
波动:日活与留存
3、路径分析(漏斗分析不能满足实际需求)方法论
漏斗分析(先有假设再数据验证) VS 路径分析(先有数据再验证假设)
4、产品分析(竞品分析)方法论
画像
产品:生孩子;运营(用户运营:提新增、拉留存、降流失;用户运营需要内容运营和活动运营来支撑):养孩子;数据分析:持续观察孩子的指标。
5、营销活动(拉新、促活、带??)分析方法论
数据分析师主导埋点(含字段名、埋点位置、上报方式)
建议指标:新增、首次、低活(结合业务来定义)带动;并关注上述用户的后续留存。
6、用户流失分析(增长分析)方法论——摩拜和滴滴的案例(漏斗思维分析获客和激活;留存与活跃)
增长黑客AARRR转化漏斗(建立产品壁垒):

分析师的任务:做规模和带收入(独立思考,跳出现有模型)、多研究用户数据。

常用的用户增长方法:魔法数字;优化渠道结构、提升新增用户留存;流失用户召回。
实际很好的2个增长思维:北极星指标:MAU=新增+老=本月新增+上月新增留存+上月老用户留存+上月老用户回流;AB测试。

四、专题分析标准化流程

思维(建立逻辑树)、技术、时间管理、ppt、演讲能力。

问题定义与拆解:用户下跌原因的逻辑树拆解

用户下跌原因的逻辑树拆解.PNG

分析角度

结构分析(各渠道)、对比分析(含AB测试)、时间序列分析(二次拆解找波动项)、相关性分析、机器学习。实际上所有的分析都是基于用户的基础属性和行为属性。


围绕5W1H构建分析角度;围绕5W1H构建用户画像???

真实专题报告撰写

PPT要有数据结论,结论是基于业务方给出的落地项,落地项要非常具体(含时间、人和语气效果)。——基于XX数据,发现XX结论,基于这个结论的建议是XX,基于这个建议的产品落地项是XX。

专题报告标准化组成

五、数据分析师的个人素养

行业分析

界定范围(产业链图谱,在全局视野下找切入点)、市场规模(交易额GMV描述、用户数描述)、社会热点事件、头部玩家(产品分析、用户分析)、未来预测。


行业分析:问题的识别与拆解

数据仓库

用户研究(快输出——2周内;线上 / 线下调研)

横坐标是态度和行为、纵坐标是定量与定性(定性研究侧重用户分类、定量研究侧重样本量和代表性)来划分四象限。


用户研究贯穿项目的前中后期

时间管理

非常好的博客:Spring数据分析思维课
【数据分析师八大能力】
分析思维 第二篇:数据指标体系
[转帖]AARRR已是过去式,而RARRA才是更好的增长黑客模型
【互联网产品经理入门】

A/B测试与假设检验

假设检验.PNG

分流模型:通常网站会利用分域、分层(将流量复用)、分桶(圈定用户群:保证用户的完全随机且互斥)的机制保证流量高可用以及分流的灵活性和科学性。

分域、分层(将流量复用)、分桶

抽样:应该保证同时性(分流应该是同时的,测试的进行也应该是同时的)、同质性(设备特征、用户属性、用户行为、用户付费特征(消费习惯及贡献度))、唯一性(要求用户不被重复计入测试)、均匀性。
如何判断是不是真的同质?可以采用AAB测试。抽出两份流量进行A版本的测试,进行AA测试,并分别与B版本进行AB测试。通过考察A1和A2组是否存在显著性差异,就可以确定试验的分流是否同质了。

确定检验类型:在判断用什么检验的时候,首要考虑的条件是样本量(检验类型:小于30即T检验),其次是总体服从的分布(抽样分布类型:是否正态分布)。

样本容量大时(统计学上一般认为 n≥30),总体的均值和标准差未知,不要求总体近似服从正态分布。根据中心极限定理,样本容量大,则样本均值的抽样分布服从正态分布,总体标准差可以用样本标准差来估计,可用Z检验
当样本容量小于30,且满足总体近似服从正态分布时,如果总体标准差已知,可用Z检验;
当样本容量小于30,且满足总体近似服从正态分布时,如果总体标准差未知,可以用样本标准差去估计总体标准差,由此可用T检验;
当样本容量小于30,且不满足总体近似服从正态分布,不能用Z检验和T检验。

改进版:若总体标准差已知(无论样本大小)都用Z检验;若总体标准差未知,都用T检验。不过当样本量够大的时候,T分布也近似于Z分布了,所以最后的结果不会差很多。T分布其实是小样本的Z分布。一个样本的自由度越大,样本方差就越接近总体方差,T分布也就越接近Z分布。因此T分布的形状随自由度的变化而变化,自由度越大,越接近正态分布

T检验的类型
①单样本的T检验:
检验单个样本的平均值是否等于目标值。例如:某大学的学生平均身高是否大于全国平均身高167cm;
②配对样本均数T检验:
检验相关或配对观测之差的平均值是否等于目标值。例如:为了检测减肥药是否起作用,随机抽样出20名测试对象,记录每个人服药前和服药后的体重。(同一组样本。问题:有残留效应);
③两独立样本均数T检验:
检验两个独立样本的平均值之差是否等于目标值。检验闯关游戏教学方法是否有效,分别在两组学生上进行效果测试。

指标选定

实验周期

一般两周。前3天在实验阶段,参考价值不大(不过能看出实验是否有问题);4-10天数据相对稳定,可作为测试结论。

结果比较

最后根据假设检验的结果,判断哪些版本较之原版有统计意义上的差异,并根据效应量选出其中表现最好的版本。

测试存档(复盘)

指标体系与统计口径

AB测试-假设检验的示例

案例1:今日头条app界面的广告位,放在第四位比较好。

项目简介:案例数据是对web新旧页面的A/B测试结果,目标是判断新旧两版页面在用户的转化情况上是否有显著区别。
数据描述与来源:数据来自Udacity的示例案例,数据共计近30万条,可能有意制造了一些脏数据。数据集含5个字段:用户的 user_id、时间戳 timestamp、分组 group(实验组or对照组)、展示的页面版本landing_page(新版or旧版)、该用户是否转化 converted(0-未转化 or 1-转化)。

假设检验(A/B测试)
AB test的一些了解
【数据分析专题】-常见框架(模型)

案例1之异常值:抖音新用户留存整体分析

竞品分析、营销活动分析、用户流失分析


整体分析:渠道侧的(下钻至一级、二级渠道)、产品侧的(功能渗透率、关键路径;路径转化)、用户侧的画像与行为特征
从整体进入优化切入点分析:
实现落地,形成闭环 结合AAARR构建视频类内容指标体系.png Spring数据分析思维.jpg
上一篇 下一篇

猜你喜欢

热点阅读