大数据玩转大数据数据分析

数据分析基础—4.3 数据加工

2018-06-27  本文已影响17人  小明学数据

        一般情况下,数据经过清洗后,依然无法满足数据分析需求,还要经过进一步的加工处理,最终形成简洁、规范、清晰的样本数据。这个过程通常包括数据抽取、数据转换、数据计算。

        1、数据抽取

        对数据库中现有字段进行整合加工,以形成分析所需要的新的字段,即为数据抽取。它包括字段拆分、字段合并、字段匹配。

        a、字段拆分

        为了截取某一字段中的部分信息,将该字段拆分成两个或多个字段,即为字段拆分。

        例如:将一个字段拆分成三个字段

        b、字段合并

        字段合并是将若干字段合成为一个新的字段,或者将字段值与文字、数字等组合形成新的字段。

        例如:上图中右侧的三个字段合并成左侧的一个字段即是字段合并;另外一个例子是将QQ号与字符合并形成QQ邮箱字段。

        c、字段匹配

        从具有相同字段的关联数据库中获取所需数据,称为字段匹配。

        字段匹配要求原数据库与关联数据库至少存在一个关联字段,根据关联字段实现批量查询匹配对应的数据。

        例如:根据“姓名”字段,把B表中的“实发工资”匹配到A表中。

        上图“姓名”是两个数据库的关联字段,要在A表中获得“实发工资”的数据,可以通过“姓名”字段从B表中查询获取,如果公司里有几千人,通过字段匹配处理的效率是显而易见的。

        另外,也可以通过条件表达表进行筛选,把满足要求的数据筛选匹配。

        2、数据转换

        不同来源的数据可能存在不同的结构,数据转换主要指将数据转换成规范、清晰、又易于分析的结构。

        a、结构转换

        在数据分析中,根据不同的业务需求,需要对数据(或抽样数据)进行结构转换。

        主要指一维数据表与二维数据表之间的转换。 例如:

        b、行列转换

        在进行数据分析报表时,常常要从不同的维度观察数据,例如从时间的维度查看汇总数据,或从地区的维度观查汇总数据,这样需要把行列数据进行转换(又称转置)。行列转换易于理解,这里不再举例。

        3、数据计算

        有时候数据库中没有我们需要的字段,需要通过现有字段进行计算之后才能获得。

        a、简单计算

        对数据值进行加、减、乘、除等运算并产生新的字段。

        例如: 计算工资

        上图是财务分析中利用工资数据库核算应发工资,运用了简单计算。

        另外还可以根据业务需求,进行关系运算与逻辑运算等数据计算得到新字段,将在后面应用中加以讲解,这里只作基本介绍。

        b、日期、时间数据计算

        在企业管理中,经常会涉及到日期和时间数据的管理分析,它也是数据库中的一类重要数据。日期、时间数据可以进行简单计算,在分析员工工龄、财务账期、考勤管理等很多方面都有应用。

        例如:利用当前日期和入职日期计算员工工龄,得到一个新的字段。

        以上是对数据加工的简单介绍,在实际应用中,原始数据有时会出乎想象的糟糕,不经过层层的抽丝剥茧很难满足分析需求,所以对于数据分析来说,进行审慎、细致的数据清洗和数据加工,是得到理想分析结果的有力保障。

上一篇下一篇

猜你喜欢

热点阅读