大数据关键技术浅谈之大数据预处理

2020-11-12  本文已影响0人  企通查

企通查在上一篇文章中讲到了大数据的采集,当我们采集到了数据后,下一步该进行的工作是什么呢?

由于初步采集到的数据大多是不完整、不一致的“脏数据”,所以刚采集完成的数据其实是无法直接被用来进行存储、管理、分析、处理、挖掘等后续操作步骤的,为了避免影响后续步骤,就需要用到整个大数据关键技术中最容易被忽略却也极其重要的一项——大数据预处理。

必须进行大数据预处理的两个理由

 

理由一:现实世界的数据是“肮脏”的

原始数据中往往会存在如下问题:

1)不完整:缺少属性值或仅仅包含聚集数据

2)含噪声:包含错误或存在偏离期望的离群值

3)不一致:数据记录的规范性和逻辑性不合规或与其他数据集合不一致

而我们在使用数据过程中对数据往往会对数据有一致性、准确性、完整性、时效性、可信性、可解释性等要求。

理由二:没有高质量的数据,就没有高质量的结果

由于采集获得的数据规模太过庞大,数据预处理往往要在一个完整的大数据处理过程中花费60%左右的时间。所谓“磨刀不误砍柴工”,由于高质量的决策必须依赖于高质量的数据,而从现实世界中采集到的数据大多是不完整、结构不一致、含噪声的脏数据,无法直接用于数据分析或挖掘,大数据预处理技术必不可少。

大数据预处理的步骤

 

大数据预处理技术就是指完成对已接收数据的辨析、抽取、清洗、填补、平滑、合并、规格化及检查一致性等工作。这个处理过程可以帮助我们将那些杂乱无章的数据转化为相对单一且便于处理的构型,以达到快速分析处理的目的。

通常,数据预处理包含数据清理、数据集成、变换以及数据规约几个部分。

数据清洗

数据清洗是保证数据质量的重要手段之一。

并不是所有采集到的数据都是有价值的,有些数据并不是我们所关心的内容,有些甚至是完全错误的干扰项。因此要对数据过滤、去噪,从而提取出有效的数据。

数据清理主要包含:

遗漏值处理(缺少感兴趣的属性):

可用全局常量、属性均值、可能值填充或者直接忽略该数据等方法处理。

噪音数据处理(数据中存在着错误、或偏离期望值的数据):

噪音数据可用分箱(对原始数据进行分组,然后对每一组内的数据进行平滑处理)、聚类、计算机人工检查和回归等方法去除噪音。

不一致数据处理:

对于不一致数据则可进行手动更正。

*关于数据清洗的详细方法可以查看企通查的历史文章:数据清洗是怎么完成的?“脏”数据如何变干净?

数据集成与变换

数据集成是指把多个数据源中的数据整合并存储到一个一致的数据库中。这一过程中需要着重解决三个问题:模式匹配、数据冗余、数据值冲突检测与处理。

由于来自多个数据集合的数据在命名上存在差异,因此等价的实体常具有不同的名称。如何更好地对来自多个实体的不同数据进行匹配是如何处理好数据集成的首要问题。

数据冗余可能来源于数据属性命名的不一致,在解决数据冗余的过程中,可以利用皮尔逊积矩来衡量数值属性,绝对值越大表明两者之间相关性越强。对于离散数据可以利用卡方检验来检测两个属性之间的关联。

数据集成中最后一个重要问题便是数据值冲突问题,主要表现为来源不同的统一实体具有不同的数据值。

为了更好地对数据源中的数据进行挖掘,数据变换是必然结果。其主要过程有平滑、聚集、数据泛化(使用高层的概念来替换低层或原始数据)、规范化(对数据)以及属性构造等。

*关于数据集成的其他介绍可以查看企通查的历史文章:数据集成:大数据处理的基本流程(二)

数据规约

数据规约主要包括:数据方聚集、维规约、数据压缩、数值规约和概念分层等。

假若根据业务需求,从数据仓库中获取了分析所需要的数据,这个数据集可能非常庞大,而在海量数据上进行数据分析和数据挖掘的成本又极高。

使用数据规约技术则可以实现数据集的规约表示,使得数据集变小的同时仍然近于保持原数据的完整性。在规约后的数据集上进行挖掘,依然能够得到与使用原数据集近乎相同的分析结果。

北京奥德塔数据科技有限公司依托自有动态更新的2.1亿市场主体、1000亿+条的海量数据池,全面构建基于企业的多层次、多行业、多业务的标签画像数据中心,利用企业经营、招投标、资质、新闻、广告、招聘等关键数据进行特征识别、文本分析和关键信息提取,可为党政部门、研究机构、媒体与商业平台等提供舆情大数据技术,为企业风控、舆情引导、舆情应对与决策提供数据支撑和决策依据。通过进行舆情监测、分析与管理,全面抓取相关数据进行分析,实现风险预警。

上一篇下一篇

猜你喜欢

热点阅读