数据分析概述

2019-06-29  本文已影响0人  springzzj

背景

数据分析是机器学习的基础,甚至对于工程或者项目管理来说,以量化数据为基础的方法论也是必要的。比如服务稳定性需要关注各种线上指标、性能指标等,这些指标需要实时的量化展示出来,以发现目前系统的问题。甚至对于UI设计、商业策略来说,数据分析中的AB-Test也是非常有效的分析工具。所以说,数据是一切工作的基础。

指标量化体系是数据分析工作中很重要的部分。但是对于数据分析师来说,不只是建立好指标系统、会用Excel、会使用SQL查询就可以了,更重要的是要理解数据背后的原因,要解决what、when、who、why、how的问题。

分析流程

目标确定

首先需要确定真实的目标是什么?把目标量化出来,遵循smart原则。比如DAU增长比例、 DAU和用户留存的关系。

数据收集

利用目前已经有的数据,或者构造实验产生新的数据。

数据清理

对搜集来的数据做数据清理,包括填充缺失值、去除异常值、数据类型转换,数据转换等。

数据分析
描述性统计
数据可视化:tableau
假设检验

通常假设检验用来验证一种猜测,首先提出一种假设,然后计算接受或者说拒绝这个假设的概率。一旦这个概率大于p-value就说明这个假设可以被拒绝。

相关性分析
抽样分析(从大样本中抽取小样本)

(p-Z*S_p, p + Z*S_p)
其中S_p = \sqrt{\frac{p(1-p)}{n}}

数据建模

数据建模主要是使用机器学习模型或者统计学模型来利用数据,并达到数据分析的目标。

假设检验

提出假设,根据假设得到的概率和P值概率比较,判断是否要接受或者拒绝原假设。

AB-Test
机器学习模型

预测、回归、聚类、启发式算法等

数据生产

有了数据模型,需要将数据模型部署到线上,并产生新的数据。

结果分析

针对数据模型的结果数据进行分析,并验证结果的合理性。是否有偏差?新策略是否真的起到效果?这里也可以应用假设检验的方法比较新策略和旧策略的结果。
对结果的合理性有了分析之后,一般为了改进效果,可能还需要根据当前的结果优化策略,并开始议论新的数据分析。

总结

对于数据分析师来说,最重要的是业务的理解。只有对业务有了深刻的理解,才能敏锐的发现目前的问题,才会有灵感巧妙解决问题。而培养业务理解能力最重要的是多用自己的产品、多分析一些case、多理解自己的用户,向PM靠齐。

上一篇下一篇

猜你喜欢

热点阅读