谁说菜鸟不懂数据分析
读后感:从数据分析师的工作流程:分析目的-确定分析思路-数据准备-数据处理-数据分析-数据展示-可视化-形成报告,阐述了各阶段数据分析做的工作,入门的框架书籍
第一章:数据分析那些事
1、数据分析(狭义):根据分析目的,用适当分析方法,对数据进行加工提取有用信息,行成有效结论
作用:现状分析、原因分析、预测分析
2、数据挖掘:从大量数据通过机器学习、统计学、可视化等,挖掘未知有价值的信息
3、数据分析流程:明确分析目的和思路--数据收集--数据处理--数据分析--数据展现--报告撰写
4、分析框架体系化:即逻辑化,先分析后分析什么,分析点的逻辑关系。从哪几个角度,采用那些指标
5、平均数:一般指算术平均数,代表总体一般水平,掩盖了总体单位差异
百分点:不同时期以百分数的形式表示相对指标变动幅度
比例:指总体中各部分占全部数值比重
比率:指不同类别数值对比,反应是整体各部分之间关系
倍数:指一个数除以另一个数得的商,比如A/B=C,就是说A是B的C倍,倍数一般表示增长而不是下降
番数:指原来数量的2的N次方倍。比如翻一番就是原数的2倍
同比:指与历史时期进行比较得到的数值,该指标主要反映事物发展相对情况
环比:指与前一个统计时期比较得到的数值,该指标反应事物逐渐发展的情况
第二章:结构为王,确定分析思路
1、常用数据分析方法论
PEST分析法:政治、经济、社会、技术——用于宏观环境分析,对影响企业的外部因素分析。
5W2H分析法:何因why、何事what、何人who、何时when、何地where、如何做how、何价how much ——多用于企业营销和管理
逻辑树分析法:将问题的所有子问题向下罗列,从最高层向下扩展(要素化、框架化、关联化)——多用于分析问题
4P营销理论:产品product、价格price、渠道place、促销promotion——4P理论来分析公司整体情况,了解公司整体业务,公司整体业务的营销分析框架
用户使用行为理论:认知-熟悉-试用-使用-忠诚——结合业务,用于用户行为研究分析
第三章:无米难为巧妇,数据准备
1、数据库的说法字段与数据记录:列名是字段,每行数据是一条数据记录(变量)
2、数据类型:字符型——不具有算数运算能力的文本数据,属于分类数据 默认左对齐
数值型数据——可进行算数运算的数据类型,默认右对齐
3、一维表的判断标准就是看列的内容,每一列是否是一个独立的变量,如果是,即为一维表,否则为二维表或者多维表
第四章:简单快捷,数据处理
1、重复值查找方法:高级筛选法、条件格式、数据透视表
2、缺失数据处理:
方法一:用一个样本统计量值代替缺失值。最典型做法就是用平均值代替
方法二:用一个统计模型计算出来的值代替缺失值。
方法三、将包含缺失值的记录删除
方法四、将包含缺失值的记录保留,仅在相应分析中做必要排除。
3、数据合并之日期合并
用&或者concat函数得到是字符型数据
用date函数得到是数值型数据
4、 函数
字段匹配:vlookup函数(根据什么值查找,查找范围,找第几行,精确或是模糊)
随机抽样:=rand()*(b-a)+a
日期计算:datedif=(起始日期,结束日期,计算形式年y、月m、天d)
例子:=datedif(c2,today(),"y")
数据分组:
5、数据类型转行可以利用分列、运算01之类进行选择性粘贴
第五章:工欲善其事必先利其器,数据分析
1、
2、指标定义:衡量事物发展程度的单位或方法;维度定义:事物或现象的某种特征
3、数据的标准化:将数据按比例缩放,使之落在一个小的区间。目的是去除单位的限制,将其转化为无量纲的纯数值,比如0-1标准化和Z标准化
0-1标准化公式:第N个标准化处理的值=(第N个原始值-最小值)/(最大值-最小值)
第六章:给数据量体裁衣,数据展现
1、数据间的关系:成分、排序、时间排序、频率分布、相关性、多重数据比较
2、特别图形:帕累托图、旋风图、人口金字塔、漏斗图、矩阵图、气泡矩阵图
第七章:专业化生存,图片可以更美
1、图形标准:严谨、简约、美观
2、色彩搭配:红黄绿慎用,具有特殊含义
第八章:专业报告,体现职场价值
1、分析报告三大作用:展示分析结果、验证分析质量、为决策提供参考依据
2、分析报告组成部分:标题、目录、正文、结论与建议