大厂面经/网易2020数据分析岗位面试全经历
绚丽的小海螺 | 作者
知乎专栏 | 来源
https://zhuanlan.zhihu.com/p/163531470
用户分析是电商数据分析中重要的模块,在对用户特征深度理解和用户需求充分挖掘基础上,进行全生命周期的运营管理(拉新—>活跃—>留存—>价值提升—>忠诚),请尝试回答以下3个问题:
① 用户第一单购买的行为往往反映了用户对平台的信任度和消费能力。现在数据库中有一张用户交易表order,其中有userid(用户ID)、amount(消费金额)、paytime(支付时间),请写出对应的SQL语句,查出每个用户第一单的消费金额。
查出每个用户第一单的消费金额
--使用窗口函数(考虑一个用户不能同时下两单)
selecta.userid,a.amount
from
(select* ,rank()over(partitionbyuseridorderbypaytime)aspaytime_rankfromorder)as
awherepaytime_rank=1
--使用联结方法
--查出第一单消费时间
creatviewtas
(selectuserid,min(paytime)as首次消费时间fromordergroupbyuserid)
--找出第一消费金额
selectt.userid,t.首次消费时间 ,b.amountfromtinnerjoin
orderasb
on(t.userid=b.useridandt.首次消费时间=b.paytime)
② 当你发现本月的支付用户数环比上月大幅下跌(超30%),你会如何去探查背后的原因?请描述你的思路和其中涉及的关键指标
第一步:明确问题
在笔试中这一步就比较明确了,面试时还需要像面试官明确这些具体的详细信息:
明确数据来源和准确性:时间是本月,对比的基准是上月,地点是哪个城市的支付用户还是所有的支付用户?数据来源哪个部门,数据是否无误,
业务指标理解:支付用户数=用户数*转化率 。明确是和上月对比下跌超过30%,运用多维度拆解分析方法,把整体拆成部分,查看内部的差异。
现在的问题是为什么支付用户数下降?是用户数下降了还是转化率下降了?
第二步:分析原因
使用多维度拆解分析方法对支付用户数这个指标进行拆解:支付用户数=用户数*转化率
从新老用户维度进行拆解,把用户数拆解成新用户数和老用户活跃人数,其中新用户数在平台购买过的用户人数,老用户活跃人数是在平台购买过的用户在平台活跃的人数
新用户数按渠道维度,又继续拆解为渠道A新用户,渠道B新用户等,考虑不同渠道的转化率也可能不一样,同样分渠道拆解为渠道A转化率,渠道B转化率,渠道C转化率
对以上分析 做出假设一:渠道A、B、C新用户人数减少
收集证据,分析渠道投放效果。使用对比分析方法,如果确认某渠道用户相比上月确实降低
则对渠道用户数进行多维度拆解,可以从年龄构成拆分,性别构成拆分,职业结构拆分和地域组成拆分,分别进行假设检验,手机证据,将渠道人数降低定位到是那个人群用户数降低,渠道的导入量降低的原因,分析渠道投放是否有效。
继续考虑用户数假设二:渠道A、B、C转化率降低
使用对比分析如果确认某渠道转化率降低,继续按业务流程对该渠道具体哪一步出现的问题进行拆解,假设平台用户的流程有广告、进店、选择商品、购买
则按业务流程拆解如下,通过假设检验,收集数据,查看产品板块是否更新,询问客服是否有投诉,有页面崩溃,不能成功下单导致某一环节流失率高,闪退,使用漏斗模型,判断是哪个产品环节出了问题。使用假设检验,验证每个环节的假设。
假设三:老用户活跃人数出了问题
通过假设检验和对比分析方法分析老用户活跃人数是否降低,如果降低的话,思考老用户活跃人数为什么会降低呢?我们从用户、产品、竞品三个维度分析原因
1. 用户购买体验不好,产品描述与实际不符
2. 产品售后服务不够好等
3. 上月做活动,上月活跃人数大幅上涨等
4. 竞品在搞活动,用户被对手吸引
可以分别从几个假设去分析原因,如果以上三大部分假设有问题,总结原因如下:
原始渠道A用户发生改变,导致渠道导入量下降,具体表现20-35岁年龄段人数下降,该35-50人群年龄段占比上升,而20-30岁群体是为我们平台的主要使用人群。
产品更新迭代,用户习惯之前的界面,还没有适应
由于之前平台大促,导致平台的售后和产品质量方面波动较大,用户颇为不满
总结新用户引入不够,老用户留存没做好,产品本身改动,导致出现了这种大幅下跌的情况
第三步:提出建议
针对以上的分析提出以下建议:
渠道A用户人群转移,考虑撤回渠道投放或者修改投放内容,吸引35-50岁人群用户进入平台,提高转化
用户使用体验不佳,建议对部分用户推更新版本,建立对照组,进行AB测试
从平台的评论,对于中差评老用户进行回访,明确原因,进行挽回。
③ 为了更好的理解用户,我们通常会基于用户的特征对用户进行分类,便于更加精细化的理解用户,设计产品和运营玩法,请你设计对应的聚类方法,包括重点的用户特征的选择及聚类算法并说明其基本原理和步骤
1. K-means聚类
使用K-means聚类的好处是可以加入性别,地域,薪资等特征,这样就可以得到的分类的年龄分布情况,薪资情况,职业分布等情况,比RFM会信息更多,但类别的解释性没有RFM用户分层强。
特征选择:人口统计学特征(性别,地域 ,年龄,薪资,职业,家庭成员),用户分层特征(消费频率,平均消费金额,最近一次消费时间)产品特征(购买物品类别)
基本原理:
step1:选举K个对象作为初始的聚类中心;
step2:计算每个对象与各种子聚类中心间的欧式距离,把每个对象分配给他最近的聚类中心;
step3:一旦全部对象被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算,重新分配。依次循环,直到聚类中心点不再改变时循环结束。
2. RFM分层
根据业务需求,使用RFM对用户进行分层,使用RFM的好处是得到的类别结果具有更明确的实际业务意义,能指导精细化运营。缺点是没有考虑用户的人口统计学特征。
主要得到分层结果重要(一般)价值、发展、挽留、保持客户八类
step1:计算RFM值(消费频率,平均消费金额,最近一次消费时间)
step2:分别RFM进行打分,确定打分体系,按价值打分,,计算均值或中值,超过均值/中值则该项指标分类为高,低于均值则该指标分类为低,
step3:进行用户分类,根据用户分类规则找到是否高低
step4:对应表格找到用户属于哪个分类
网易严选是网易旗下原创生活类自营电商品牌,深度贯彻“好的生活,没那么贵”的品牌理念。商品覆盖居家、餐厨、配件、服装、洗护、母婴、原生态饮食等几大类目,兼具品质和性价比,得到用户的广泛好评。若你是网易严选负责商品的数据分析师,当面对以下业务问题时,你会如何解决?
① 用户增长团队期望选择一批合适的商品用于吸引新客,期望你帮助从数据的角度筛选出一批合适的商品,你会如何帮助他们进行筛选?请描述你的思路。
答:该问题的目的是吸引新客,而新客的难点是没有过去的历史消费记录和浏览记录,那如何进行推荐来吸引呢?这本质上一个推荐系统的用户冷启动问题,有如下几个步骤:
1. 对已有的用户进行分类,假设目前对于平台已有的用户有如下分类(高消费人群、中高消费人群、中消费人群、低消费人群),找到最能吸引每类用户的产品排行榜,比如最能吸引低消费人群是性价比排行榜,最能吸引高消费人群的是品质排行榜,最能吸引中消费人群的是热销排行榜等等,把用户分类和排行榜对应好。
2. 如何找到每个类别对应的排行榜呢?对已经分好的类,结合该类用户对商品购买量和点击量,进行综合评价,需要考虑商品的两大属性,一个是能否吸引用户属性,另一个是商品的价值收益属性。因为有些商品本身很受欢迎,但是单价低收益少,比如抽纸该类商品,人人都需要,但利润空间透明,因此还要考虑该类商品的价值收益。
通过每类用户商品的点击量、购买量、客单价、利润等进行综合评价打分,得到每类商品的对应排行榜
3. 尽可能拿到用户登录的信息,登录信息有年龄,性别,职业,家庭成员(婚育情况),感兴趣的领域和方向后,将用户进行初步分类,假设该用户通过注册时填入的感兴趣信息和年龄等信息将其分入低消费人群,则给出该类别人群所对应的性价比排行榜商品进行推荐
4. 初步推荐后获得用户的点击和转化之后再进行个性化的推荐
② 商品研发负责人期望能有一套指标帮助衡量开发的商品表现,请你帮助设计对应的评估方案,包括设计思路、涉及的数据指标等。
答:该问题是帮助衡量开发的商品表现,参考了《游戏数据分析实战》这本书的一些内容,提炼如下思维导图
1. 在研发方向选择和调研论证阶段
需求角度:需求的强度也就是否用户刚需(用户生命周期和留存)、宽度(人群受众分析,用户年龄段,使用时间段、性别、职业等目标群体大不大、需求的宽度是否会演变等、是否会)和频度(该类需求频率高不高,平台类要判断是否有高频和低频都有,可以采用高频带动低频的方法)。有些行业是采用问卷和预订的方式进行需求分析
宏观环境:使用PEST进行行业分析和竞争市场分析
2. 产品研发和内测阶段
产品粘性指标:获客总数、留存率和用户对产品的粘性,生命周期维度(新用户增量、活跃用户数量、留存用户数量、支付用户数量)观察少量用户具体行为,根据用户留存情况不断加大产品黏性,不断反馈。针对不同的APP,有不同的北极星指标,比如电商类产品是GMV,抖音类短视频是用户使用时长等指标
用户分析:用户人群属性(人口统计学维度)这些用户对产品界面、新手引导、软件功能、社交功能等内容的体验和评价如何,有什么建议。便于对产品进行修订和优化。
3. 产品优化和小规模推广阶段
渠道质量分析:通过接入渠道的导入量、留存率和付费数据,进行综合排名,全面了解渠道表现。帮助筛选渠道,获取更多的有效用户,让产品收益最大化。
漏斗模型:这部分关注核心环节转化率,使用AARRR漏斗模型,做好每个环节的细节,从渠道曝光量,激活,注册,留存,购买或者价值的部分,实现自增长
产品留存优化:继续优化产品的留存
4. 爆发式增长
竞品调研:全方位了解产品动态,评价竞品压力。其主要的价值是上线时机的选择,避重就轻,和竞品打差异化。
APP使用人数预估:在产品上线、版本重大更新前,提前预测最高在线人数,避免出现产品崩溃、充值排队等现象。
广告投放效果分析:每天监控广告投放数据,一旦发现数据异常,及时预警,优化、调整广告投放形式或素材,甚至及时停止广告,以此提高整体投放效果,降低投放风险。
用户手机机型分布:了解用户手机设备平台构成比例;获得用户当季的主流机型的硬件配置,作为研发项目兼容性测试的必过机型,替代原先的兼容性方法,从而提高产品质量。
- END -