数据分析入门篇
昨天学习了数据分析课程,算是小白的入门篇,所以做了初步整理,作为自己学习的输出,也分享给有需求的朋友们。
1、数据的定义、分解
1.1 什么是数据
数据是通过观测得到的数字性的特征或信息。更专业地说,数据是一组关于一个或多个人或对象的定性或定量变量。换句话说,数据就是电子化记录,电子化记录就是数据。
1.2 数据的价值
通过数据的分析可以增加收入、减少支出、降低风险。很好理解,比如我们熟悉的个性化推荐,是利用数据帮助平台获取收益;又比如智能客服,帮助客户节约成本投入;再比如利用用户画像降低信贷风险。
1.3 数据分析是什么
本质就是“业务+数据”,利用数据获取业务价值。
1.4 数据分析的步骤
(1)问题定义:最重要的是理解业务。了解背景、成功标准、边界、限制条件、利益相关方、资源等。
(2)目标定义:利用SMART原则去定义目标,制定明确的、可衡量的、可达到的、相关的、有时限的目标。SMART原则就不做过多介绍了,网上有很多资料可自行查阅。
(3)问题拆解:根据MECE原则(不重不漏)拆解问题,拆解的方式可以根据时空、成分、要素、逻辑等维度。在这个过程中也去找到我们的北极星指标。
(4)数据分析与展示:这个过程包含了从思考到数据到展示的过程,将我们的数据问题利用一些数据分析方法得出结论再做展示,这是数据分析最重要的部分,下文做具体介绍。
2、数据分析
2.1 数据可视化
2.1.1 可视化的目标
了解和理解数据、进行数据探索、沟通分析结果
2.1.2 可视化的基本步骤
(1)明确数据的含义:比如数据类型、采集方式、单位等,包含定性数据(如性别)、定量数据(如收入)。
(2)可视化分析:找到合适的工具进行描述分析。这里给出不同类型的数据应该用哪种统计图描述,以及常见的可视化分析方法。
1)使用正确的统计图去描述不同类型的数据
2)常见的描述性分析方法(分析的本质是比较)
(3)沟通结果:对描述分析发结果做适当的评述
2.2 进阶数据分析
2.2.1 数据分析的第一步:统计建模
(1)定义:确定两种或两种以上变量间相互依赖的定量关系
(2)目的:解读:业务解读,理解X与Y之间的相关关系(X、Y之间是否有相关关系,如果有是正向的还是 负向的,这种相关关系有多大)。预测:预测精度,已知X,预测未知的Y。
2.2.2 数据分析方法
(1)按照因变量Y的类型,选择合适的方法
(2)经典分析方法
3、验证、决策、展示与沟通(简单介绍,后续补充)
3.1 A/B test
目的:科学检验一个“变化”的好坏;精细化运营必备手段:优化转化率、产品迭代。
流程:建立实验目标、收集数据发现问题、提出假设、实验设计、开发、开始实验、采集数据、分析评估数据、发布产品。
3.2 决策推导
从事实和分析提炼观点,要得出洞见,而非罗列事实。
3.3 展示与沟通分析报告
利用金字塔原理:结论先行,分别进行背景介绍、数据来源说明、描述性分析、统计建模、结论与建议。