读《谁说菜鸟不会数据分析》2016-05-04
第四章 数据处理
前面说了,在进行数据分析前要对我们的数据进行处理,处理是分析前很重要的工作
1. 数据分析人应该有的心态:“三心二意”
信心:在没有看到任何积极反馈信息时,依然充满信心,坚持前行
细心:在历史上无数事例告诉我们一个小数点可能引起一场大灾难,1%的错误=100%的错误,所以一定要细心,对于某些差异性较大的数据要有敏感心
平常心:争取做到“众人皆醉我独醒,众人皆浊我独清”,宁静致远,洞悉事物本质,做事实事求是
诚意:严谨真诚
合意:分析的结果要满足相关需求人员的满意,达到他们的分析目的。这就说明在分析前就要清楚他们需要什么,随时向他们反映分析的细节和进度,以便随时沟通了解需求
2.第一步:数据清洗
数据处理中,先要对数据进行清洗,包括三步:去重/补缺/检查逻辑
去重:找到多余重复的数据删除,这里先说如何找到重复数据
找重法1)函数法:识别重复数据 使用Excel里的countif函数对满足耽搁条件的单元格计数
countif(range,criteria),两个参数为要计数的单元格,计数条件
法2)高级筛选:直接利用[数据]中的[排序和筛选]中[高级]选择[选择不重复的记录]
法3)条件格式:Excel 里设置了标识重复值的功能,[开始]中的[条件格式]中的[突出单元格规则]中选[重复值]
法4)数据透视表:将要查的属性放入行标签,再放入值标签就可以看到重复的数据
删重法1)利用菜单:[数据]中的[删除重复项]
法2)通过排序:利用函数识别出重复值后针对计数行排序后删除重复[开始]里的[编辑部分]的[排序与的筛选]
法3)通过筛选,基本操作大致同上
补缺:一般我们要使用定位输入,先用定位输入找出缺失值为空的单元格,则利用”定位输入”找到所有空白的单元格,[开始]中的[编辑]中单击下拉里的[定位条件]中的[空值]找到所有空值,可以通过4种方法处理缺失
法1):用一个样本统计量的值代替缺失,一般使用样本的平均值
法2):用一个统计模型计算出值代替缺失,常用模型为“回归模型,判别模型”,使用专业的分析软件
法3):删除缺失值记录(会减少样本量)
法4):将所有的缺失的记录保留,仅在相应的分析中做必要的排除,变量间逻辑关系简单,缺失值较少时可以使用
此时定位出所有缺失值,在其中一个单元格输入平均值,然后ctrl+enter直接一次填入所有的缺失单元格
查找ctrl+F 替换ctrl+H
检查逻辑:错误数据分为:输入错误/录入错误
对于错误数据,首先利用if检查,错误数据返回“false”正确数据返回“true",再利用[条件格式]检查第二类错误,如输入的数字只能为“0”,“1”,录入其他数字,将单元格突出
if(logical_test,value_if_true,value_if_false),第一个参数表示表达式,第二个结果“真”返回值,第三个为结果“假”返回值
检查逻辑错误,[开始]中的[条件格式]中的[突出单元格]的[其他规则]的[使用公式确定单元格]中输入“=or函数()=false”判断,意思是如果单元格的值不是不啦不拉,就突出单元格
or(logical1,logical2,...)
and(logical1,logical2,...)