谁说菜鸟不会数据分析(入门篇)
1、数据分析那些事儿
数据分析是神马
数据分析: 数据分析是指用适当的统计分析方法对搜集来的大量数据进行分析,将他们加以汇总理解并消化,以求最大化的开发数据的功能,发挥数据的作用。
数据分析的目的:把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律。帮助管理者进行判断和决策,以便采取适当策略与行动。
数据分析的分类:

数据分析的作用:数据分析在企业的日常经营分析中主要有三大作用,现状分析,原因分析,预测分析。
现状分析——过去发生了什么,通过各个经营指标的完成情况来衡量企业的运营状态,已说明企业的整体运营是好了还是坏了。
原因分析——某一现状为什么发生,什么原因导致的,对运营策略做出调整和完善。
预测分析——将来会发生什么,对企业未来发展趋势做出预测。
数据分析六部曲
数据分析主要包括6个既相对独立又互有联系的阶段,分别是:
明确分析目的和思路——数据收集——数据处理——数据分析——数据展现——报告撰写
数据收集:数据库,公开出版物,互联网,市场调查。
数据处理:主要包括数据清洗,数据转化,数据提取,数据计算等处理方法。
数据分析:用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程。
数据展现:图表能有效,直观的传达出数据分析师所要表达的观点。
报告撰写:对整个数据分析过程的总结和呈现。起因,经过,结果,建议。
数据分析的三大误区
1. 分析目的不明确,为分析而分析
2. 缺乏业务知识,分析结果偏离实际
懂业务(熟悉行业知识,公司业务及流程),懂管理,懂分析,懂工具,懂设计
3. 一味追求高级分析方法,热衷研究模型
几个常用指标和术语
平均数:将总体内单位的数量差异抽象化,代表总体的一般水平,掩盖了总体内各单位的差异
相对数和绝对数:绝对数是反映客观现象总体在一定时间,地点条件下的总规模,总水平的综合性能。相对数是指由两个有联系的指标对比计算而得到的数值,用以反映现象之间的数量联系度的综合指标。相对数=比较数值/基础数值
百分比与百分点:百分比是相对数中的一种,也称百分率或百分数。百分点是指不同时期以百分数的形式表示的相对指标的变动幅度。
频数与频率:频数是指一组数据中个别数据重复出现的次数。频率是每组类别次数与总次数的比值,它代表某类别在总体中出现的频繁程度,一般用百分数表示。频数是绝对数,频率是相对数。
倍数与番数:倍数与番数同样属于相对数,倍数是一个数除以另一个数所得的商。番数是指原来数量的2的N次方倍。
同比与环比:同比是指与历史同时期进行比较得到的数值,该指标反映的是事物发展的相对情况。环比是指与前一个统计期进行比较得到的数值,该指标反映的是事物逐期发展的情况。
2、结构为王——确定分析思路
数据分析方法论:主要从宏观角度指导如何进行数据分析,它就像是一个数据分析的前期规划,指导着后期工作的开展。
常用的数据分析方法论
PEST分析法
PEST分析理论主要用于行业分析。用于对宏观环境的分析,宏观环境又称一般环境,是指影响一切行业和企业的各种宏观力量。一般都应对政治,经济,技术和社会这四大影响企业的主要外部环境进行分析。——主要用于行业分析
5W2H分析法
5W2H分析法是以5个W开头的英文单词和两个H开头的英文单词进行提问,从回答中发现解决问题的办法,及何因WHY,何事WHAT,何人WHO,何时WHEN,何地WHERE,如何做HOW,何价HOW MUCH。——用途相对广泛,可用于用户行为分析,业务问题专题分析等。
逻辑树分析法
逻辑树是分析问题最常使用的方法,将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展。必须遵循以下三个原则,要素化(将相同问题归结成要素),框架化(将各个要素组成框架,遵守不重不漏的原则),关联化(框架内各要素保持必要的相互关系,简单而不独立)。——可用于业务问题专题分析
4P营销理论
4P营销理论的要素可以概括为产品,价格,渠道,促销。——主要用于公司整体经营情况分析
用户行为理论
用户使用行为是指用户为获取,使用物品或服务所采取的各种行动,用户对产品首先要有一个认知,熟悉的过程,然后试用,再决定是否继续消费,最后成为忠实用户。即用户行为的完整过程。 认知——熟悉——试用——使用——忠诚。————用途较单一,用于用户研究行为分析。
3、无米难为巧妇——数据准备
理解数据
字段:字段是事物或现象的某种特征,在统计学中称为变量。
记录:记录是事物或现象某种特征的具体表现,记录也称为数据或变量值。
数据由字段和记录共同组成。最终可分为两个类型,文本型数据和数值型数据。(文本靠左,数值靠右,数值可以参与计算,但文本不能参与计算)
数据表的六点要求:
1.数据表由标题行和数据组成。
2.第一行是表的列标题(字段名),列标题不能重复
3.第二行起称为数据部分,数据部分的每一行数据称为一个记录,并且数据部分不允许出现空白行和空白列。
4.数据表中不能有合并单元格存在。
5.数据表与其他数据之间应该留出至少一个空白行和一个空白列。
6.数据表需要以一维形式存储,但是在 实际操作中接触的数据大多是二维表形式存储的,应该将二维表转化为一维表存储。
数据来源

4、三心二意——数据处理
数据处理的步骤:
第一步,数据清洗。数据清洗就是将多余重复的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或删除。
第二步:数据加工。经过清洗过的数据,并不一定是我们想要的数据,所以,我们还应该对数据字段进行信息提取,计算,分组,转换等加工,让它变成我们想要的数据表。
数据清洗
清洗数据包括三部分:清除掉不必要的重复数据,填充缺失的数据,检查逻辑错误的数据。为后面的数据加工提供简洁、完整、正确的数据。
重复数据的处理
用几种不同的方法可以找出一张表中的重复数据?
1> 函数法
函数识别重复数的方法,要用到countif函数。countif(要计数的单元格的范围,条件)
2>高级筛选法
在Excel中,可以直接利用筛选功能筛选出非重复值。选择要筛选的数据单元格区域——在数据选项卡中排序和筛选卡中点击高级,弹出高级筛选对话框——选择将筛选结果复制到其他位置——选择不重复的记录——确定。
3>条件格式法
Excel中有表示重复项的功能,选择开始——条件格式——突出显示单元格规则——重复值。就可以把重复的数据和所在的单元格标识为不同的颜色。

4>数据透视表法
删除重复数据
1>通过菜单操作删除重复项
数据——数据工具——删除重复项
2>通过排序删除重复项
借助countif函数得到的第二次重复标记,通过排序,将大于一的行删除
3>通过筛选删除重复项
借助countif函数得到的第二次重复标记,选择数据——排序和筛选——筛选——数字筛选——不等于1——删除筛选出来的行
缺失数据处理
当缺失值以空白格的形式出现在我们的数据表中,我们可以采用定位功能(F5),点击空值,借助相应的公式填充,最后Ctrl C,Ctrl alt V,选择数值。
Ctrl enter快捷键,在不连续的区域中同时输入同一个数据或公式时很好用,一次性填充完所有选择的单元格。
当缺失值是以错误标识符形式出现时,可以采用查找替换,查出所有出现在同一错误标识符的单元格。(Ctrl F)
检查逻辑错误
利用if函数检查错误,利用条件格式(and,or)标记错误
数据加工
数据抽取
数据抽取是指保留源数据中的某些字段的部分信息,组成一个新字段,可以是字段分列,字段合并,字段匹配。
字段分列
1>菜单法
选择要转化的数据区域,在数据——数据工具——分列完成分类
2>函数法
当有特定的分隔符时,采用分列法非常方便快捷。但有时候我们需要提取特定的几个字符,或者提取其中的几个字符,我们就可以使用left函数和right函数解决问题。
left(要提取文本的字符串,从左指定的个数),right(要提取文本的字符串,从右指定的个数),mid(要提取文本的字符串,从第几个字符开始,提取几个字符)
字段合并
字段合并是将文字或数字合并成一个单元格。合并文本和数字有两种方式。利用concatenate函数和&(逻辑与)运算符。使用text函数可以恢复原数字格式。
字段匹配
借助vlookup函数完成两张表之间的匹配。必要时可以借助if函数一起来完成匹配。
数据计算——简单计算,函数计算,日期计算等。
数据分组——借助vlookup的模糊查找去实现数据的分组
数据转换——数据表的行列互换——选择性粘贴,点击转置,就可以实现数据表的行列互换。利用选择性粘贴可以将所有数变成他的相反数,除以负一。
数据抽样——数据抽样是指从调查对象总体中按照随机原则选取一部分对象作为样本进行调查分析,以此推论总体状况的一种调查方式。在数据抽样中,可以借助rand函数。
5、工欲善其事必先利其器——数据分析
数据分析方法
1>对比分析法:是指将两个或两个以上的数据进行比较,分析他们的差异,从而所揭示这些数据所代表的事物变化情况和规律性。
特点:非常直观的看出事物某方面的变化和差距,并且可以准确量化的表示出这种变化或差距是多少。
分类:静态比较和动态比较。静态比较是在同一时间条件下对不同总体指标的比较简称横比。动态比较是在同一总体条件下对不同时期指标数值的比较。简称纵比。
对比分析常用的以下几个维度:

2>分组分析法:分组的目的就是为了便于对比,关键在于确定组数和组距。
3>结构分析法:是指被分析总体内的各部分与总体之间进行对比的分析方法,即总体内各部分占总体的比例,属于相对指标。市场占有率就是一个非常经典的应用。
4>平均分析法:是指运用计算平均数的方法来反映总体在一定时间、地点条件下某一数量特征的一般水平。
主要作用:一、利用平均指标对比同类现象在不同地区,不同行业,不同类型单位等之间的差异程度,比用总量指标更具有说服力。二、利用平均指标对比某些现象在不同历史时期的变化,更能说明其发展趋势和规律。
5>交叉分析法:交叉分析法通常用于两个变量之间的关系,即同时将两个有一定联系的变量及其值交叉排列在一张表格内,使各变量值成为不同变量的交叉结点,形成交叉表,从而分析交叉表中变量之间的关系。
6>综合评价分析法:是将多个指标转化为一个能够反映综合情况的指标来进行分析评价。权重确定方法(目标优化矩阵)
7>杜邦分析法
8>漏斗图分析法
9>矩阵关联分析法:是指根据事物的两个重要属性作为分析的依据,进行分类关联分析,找出解决问题的一种分析方法,也称为矩阵关联分析法。以属性A为横轴,属性B为纵轴,组成一个坐标系,在两个坐标轴上分别按某一标准进行刻度划分,构成四个象限,将要分析的每个事物对应投射至这四个象限内,进行交叉分类分析,直观的将两个属性的关联性表现出来,进而分析每一个事物在这两个属性上的表现。
发展矩阵:要了解几年之内的变化情况,可将这几年的数据都绘制在一张矩阵图上并用箭头把每个服务项目在几年中的变化标注出来。
改进难易矩阵:当有三个变量时,可以采用气泡图来绘制改良后的矩阵,也称改进难易矩阵。
数据分析工具
数据透视表就是对Excel数据表中的各个字段进行快速分类汇总的一种分析工具,它是一种交互式报表。
6、给数据量体裁衣——数据展现
揭开图表的真面目
图表的作用:表达形象化,突出重点,体现专业化。
通过关系选择图表
大部分的数据间关系可以分为六种类型:成分、排序、时间序列、频率分布、相关性、多重数据比较。
成分:也叫作构成,用于表示整体的一部分,一般情况下用饼图表示
排序:根据比较项目的数值大小排序。可排序的图有柱形图,条形图,气泡图,帕累托图等
时间序列:用于表示某事按一定的时间顺序发展的走势,趋势。
频率分布:与排序一样,都表示各项目类别间的比较,是一种特殊的排序类图形,只能按指定的横轴排。
相关性:用于衡量两大类中各项目间的关系,即观察其中一类的项目大小是否随着另一类项目大小有规律的变化。(柱形图,旋风图,散点图,气泡图)
多重数据比较:指数据类型多余两个的数据分析比较。可以采用雷达图来表示。
表格也疯狂
突出显示单元格:根据指定的规则,把表格中符合条件的单元格用不同的背景,字体突出出来。(开始——样式——条件格式——突出显示单元格规则——确定条件)
项目选取:根据指定的规则,把表格中符合条件的单元格用不同的背景,字体突出出来。区别在于指定的规则不同。突出显示单元格的规则指定值是与原始数据之间相关的数据,而项目选取的指定值是对原始数据经过计算的数据。如平均值等(开始——样式——条件格式——项目选取规则——确定条件)
数据条:数据条可以帮助你查看某个单元格相对于其他单元格的值。数据条的长度代表单元格中的值。(开始——样式——条件格式——数据条)
图标集:使用图标集可以对数据进行注释,并可以按阙值将数据分类,每个图表代表一个范围内的值。图标集特别适合用于企业运营指标发展态势的监控。(开始——样式——条件格式——图标集)
迷你图:迷你图可以显示数值系列中的趋势,突出显示最大值和最小值。
给图表换装
1>平均线图:在原来柱形图或折线图的基础上,添加一条平均线。

2>双坐标图:比平常的图形多了一个纵坐标轴,也称次坐标轴。一般在图表中有两个系列及其以上的数据,并且他们的量纲不同或者数据差别很大时,就可以采用双坐标图来绘制。
线柱图,双线图都比较容易,这里主要介绍双柱图。利用双柱图作图时,柱图就会发生重叠,我们可以在他们之间插入数据,要插入两列数据,目的是让他们占住位置,但又不显示出来,把他们称为占位数据。

3>竖形折线图:把折线立起来,也称蛇形图,主要在市场研究,咨询等公司使用较多,用它来展示产品功能,品牌形象等在消费者心中的评价。

4>瀑布图:看起来就如同瀑布那样,具有自上而下的流畅效果,也称步行图,阶梯图,在企业的经营分析,财务分析中使用较多,用于表示企业成本的构成,变化等情况。要把后面的柱子悬挂起来,就要用到占位的方法作图。第N各占位数据的大小=(总成本-(成本1+成本2+...+成本N))(选中A1:C6数据——插入——柱形图——堆积柱形图)

5>旋风图:也称成对条形图或对称条形图。旋风图主要用在以下情形:
* 同一事物在某个活动、行为影响前后不同指标的变化,如某企业促销活动开展前后,产品收入,销量等不同的指标变化。
* 同一事物在某个条件变化下(指标A的变化),指标B受影响也随之变化,具有因果关系。
* 两个类别之间不同指标的比较,如部门A与部门B各业绩指标对比。

6>矩阵图(散点图)

7>改进难易矩阵(气泡图):他是散点图的扩展,相当于在散点图的基础上增加了第三个变量,即气泡的面积。所以气泡图可以应用更加复杂的数据关系。

7、专业化生存——图表可以更美的
让图表五脏俱全:一张图必须包含完整的元素,才能让观众一目了然。标题、图例、单位、脚注、资料来源这些图表元素就好比图表的五脏六腑。
要注意的条条框框:首先,避免生出无意义的图表。决定做不做图的唯一标准就是能否帮助你有效的表达信息。第二点、不要把图表撑破。最好一张图表反映一个观点,突出重点,让读者迅速捕捉到核心思想。第三点、只选对的,不选复杂的。第四点、一句话标题。
饼图:把数据从12点钟的位置开始排列,最重要的成分紧靠12点钟的位置。数据项不要太多,保持在5项以内,不要使用爆炸式的饼图分离。不过可以将某一片的扇区分离出来,前提是你希望强调这片扇区。饼图不要使用图例。不使用3D效果。当扇区使用颜色填充时,推荐使用白色的边框线,具有较好的切割感。
复合饼图:应用复合饼图可以将分类数据中所占比例较小的分类合并成其他项,使图表反映的信息更能突出重点。
柱形图:同一数据序列使用相同的颜色。不要使用倾斜的标签,纵坐标轴一般刻度从0开始。一般来说,柱形图最好添加数据标签,如果添加了数据标签,可以删除纵坐标刻度线和网格线。
条形图:同一数据序列使用相同的颜色。不要使用倾斜的标签,最好添加数据标签,尽量让数据由大到小排列,方便阅读。
折线图:选用的线型要相对粗些,线条一般不超过5条,不能使用倾斜的标签,纵坐标轴一般刻度从0开始。预测值的线条线型改为虚线。当数量不多时,可以设置圆圈标记样式,圆圈标记内填充白色,以折线图的线条颜色为圆圈标记线颜色,并加粗。
图表会说谎——虚张声势的增长、3D效果的伪装、逆序排列的误导、一维图形的障眼法。
图表美化
图标美化的三原则:简约(清晰明了,让人一看就明白)整洁(整整齐齐,干干净净,和谐自然)对比(突出某些重要元素,主要体现在字体和构图等方面)
图表美化的技巧:
1>最大化数据墨水比:图表中的每一滴墨水都要有存在的理由。对图表应该更多的关注减。即尽量减少和弱化非数据元素。
数据墨水比最大化的步骤:去掉不必要的背景填充色。去掉无意义的颜色分类、去掉装饰性的渐变色、去掉网格线边框、删掉不必要的图例、去掉不必要的坐标轴、去掉装饰性图片、对需强调的数据元素进行突出标识。
2>找出隐形的线:对齐。
3>图表喜欢的数字格式:将所有的数字格式都调整成Arial字体。
4>如何突出对比:改变颜色,使用箭头、直线或者阴影等手法。对比的目的只有两个,首先让读者快速领悟到重要信息,其次才是吸引读者的眼球。
8、专业的报告——体现你的职场价值
数据分析报告:是根据数据分析原理和方法,运用数据来反映、研究和分析某项事物的现状。问题、原因、本质和规律,并得出结论,找出解决办法的一种分析应用文体。(规范性、重要性、谨慎性、创新性)
数据分析报告的作用:展示分析结果、验证分析质量、提供决策参考
数据分析报告的种类:专题分析报告(单一性、深入性)、综合分析报告(全面性、联系性)、日常数据通报(进度性、规范性、时效性)
数据分析报告包括:标题、目录、前言(分析背景,分析目的,分析思路)、正文、结论、建议、(附录)