数据分析基础—4.3 数据加工
一般情况下,数据经过清洗后,依然无法满足数据分析需求,还要经过进一步的加工处理,最终形成简洁、规范、清晰的样本数据。这个过程通常包括数据抽取、数据转换、数据计算。
1、数据抽取
对数据库中现有字段进行整合加工,以形成分析所需要的新的字段,即为数据抽取。它包括字段拆分、字段合并、字段匹配。
a、字段拆分
为了截取某一字段中的部分信息,将该字段拆分成两个或多个字段,即为字段拆分。
例如:将一个字段拆分成三个字段
b、字段合并
字段合并是将若干字段合成为一个新的字段,或者将字段值与文字、数字等组合形成新的字段。
例如:上图中右侧的三个字段合并成左侧的一个字段即是字段合并;另外一个例子是将QQ号与字符合并形成QQ邮箱字段。
c、字段匹配
从具有相同字段的关联数据库中获取所需数据,称为字段匹配。
字段匹配要求原数据库与关联数据库至少存在一个关联字段,根据关联字段实现批量查询匹配对应的数据。
例如:根据“姓名”字段,把B表中的“实发工资”匹配到A表中。
上图“姓名”是两个数据库的关联字段,要在A表中获得“实发工资”的数据,可以通过“姓名”字段从B表中查询获取,如果公司里有几千人,通过字段匹配处理的效率是显而易见的。
另外,也可以通过条件表达表进行筛选,把满足要求的数据筛选匹配。
2、数据转换
不同来源的数据可能存在不同的结构,数据转换主要指将数据转换成规范、清晰、又易于分析的结构。
a、结构转换
在数据分析中,根据不同的业务需求,需要对数据(或抽样数据)进行结构转换。
主要指一维数据表与二维数据表之间的转换。 例如:
b、行列转换
在进行数据分析报表时,常常要从不同的维度观察数据,例如从时间的维度查看汇总数据,或从地区的维度观查汇总数据,这样需要把行列数据进行转换(又称转置)。行列转换易于理解,这里不再举例。
3、数据计算
有时候数据库中没有我们需要的字段,需要通过现有字段进行计算之后才能获得。
a、简单计算
对数据值进行加、减、乘、除等运算并产生新的字段。
例如: 计算工资
上图是财务分析中利用工资数据库核算应发工资,运用了简单计算。
另外还可以根据业务需求,进行关系运算与逻辑运算等数据计算得到新字段,将在后面应用中加以讲解,这里只作基本介绍。
b、日期、时间数据计算
在企业管理中,经常会涉及到日期和时间数据的管理分析,它也是数据库中的一类重要数据。日期、时间数据可以进行简单计算,在分析员工工龄、财务账期、考勤管理等很多方面都有应用。
例如:利用当前日期和入职日期计算员工工龄,得到一个新的字段。
以上是对数据加工的简单介绍,在实际应用中,原始数据有时会出乎想象的糟糕,不经过层层的抽丝剥茧很难满足分析需求,所以对于数据分析来说,进行审慎、细致的数据清洗和数据加工,是得到理想分析结果的有力保障。
数极客是国内新一代用户行为分析平台,支持无埋点采集、前端代码埋点采集、后端代码埋点采集等多种混合数据采集方数,是增长黑客必备的大数据分析工具,支持APP数据分析和网站分析及用户画像,独创了6大转化率分析模型,是用户行为分析领域首家应用定量分析与定性分析方法的数据分析产品,运用数极客用户行为录屏系统,可以分析并优化用户体验的细节,基于用户行为分析系统,提供了会员营销系统和A/B测试工具两大数据智能应用解决方案,使得企业可以快速的实现数据驱动增长。
作者:小明学数据
链接:https://www.jianshu.com/p/db4153fd9db5
來源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。