数据分析数据分析教程

数据分析基础—4.2 数据清洗

2018-06-23  本文已影响7人  数极客用户行为数据分析

       在数据分析中,抽样采集的样本数据往往存在各种异常情况,如大量缺失,错误数据、重复数据等,直接影响数据分析效果使结果出现偏差,所以在数据分析之前要对样本数据进行必要的处理。

   数据清洗

       数据清洗是指发现并纠正数据存在的错误,主要包括缺失数据、错误数据和重复数据。

1、缺失数据

       样本数据里的数据缺失是常见的现象,这其中有的是数据存储错误的原因,有的是原始数据本身就是缺失的,例如录入的信息不全,录入错误等,对于这些情况,要考虑缺失数据的重要性和缺失比例,严格谨慎加以处理,常用的处理方式有两种:

       a、删除

       分析缺失数据的重要性,如果不是关键字段内容缺失,同时缺失数据占样本数据比例不大,直接删除即可。

       b、替换

       经过统计分析,根据数据的取值分布,选择有相同属性的数据进行替换,例如众数、算数平均数、中位数*、最大值、最小值等有代表性的数据,这种方法简单、直观且有一定的依据。

       还有一种情况的替换, 是针对某些重要数据的缺失,采用回归模型等算法对缺失数据进行预测,找出最近替代值。

       2、错误数据

       样本数据可能来源于不同的数据库,如果是人工收集或者来自客户填写,在内容和格式上很可能存在错误或异常,例如,销售额出现负数,年龄大于200的异常值,录入多余空格等等情况,都会使分析结果出现偏差,具体常见的数据错误有以下几种:

       a、数据值错误

       数据值存在错误,例如销量为负数、小数据位数不统一、拼写错误、逻辑错误等情况。

       b、数据格式错误

       格式错误常与人为输入有关,例如,半角全角字符、中英文字符存储错误,数据存储的编码错误,数据值头尾或中间有空格等。

       c、数据类型错误

       数据的存储类型不符合处理需求的,例如,日期型数据存储成数值型,数据值型存储为字符型等。

       d、数据异常值

       异常值错误是数据超出值域范围,数据出现的次数、频率过大或太小等情况,需要结合业务背景进行正确判断。

     3、重复数据

       由于不同的原因,数据中可能存在重复记录或重复字段,对于重复数据的处理需要与业务部门确认,判断其是否合理有效,一般的去重操作就是直接删除。

       数据清洗的任务是过滤那些不符合数据分析要求和自身异常的数据,在实际场景中对数据的识别与清洗是一个复杂的过程,需要反复与业务部门进行分析确认,最终留下有价值的数据,保证分析结果符合业务实际需求。

注:众数、算数平均数、中位数的含义见数据分析基础—1.2 常用的数据分析指标与术语

数极客是国内新一代用户行为分析平台,独创了6大转化率分析模型,在数据分析方面,首次提出拆分定量分析与定性分析方法,并且基于用户行为分析,提供了会员营销管理系统A/B测试工具两大解决方案,可以快速的实现数据驱动增长。

作者:小明学数据

链接:https://www.jianshu.com/p/6c3faa6f8cc5

來源:简书

简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

上一篇下一篇

猜你喜欢

热点阅读