大数据 爬虫Python AI Sql玩转大数据大数据,机器学习,人工智能

深入浅出学习大数据:探讨大数据系统基准以及科学问题!

2018-08-05  本文已影响35人  Herbert今日看科技

继续带大家学习大数据。今天主要介绍大数据系统基准和科学问题,新朋友可以翻阅我前面的文章,跟上学习大数据的步伐。希望大家持续学习,每天关注,我会连续更新文章,让大家系统学习和认识大数据。

一、大数据系统基准(benchmark)

1.面临的挑战

事务处理性能委员会(Transaction Processing Performance Council)制定的系列基准极大地促进了传统关系型数据库的发展和商业化。随着大数据系统研究的逐步成熟,学术界和产业界试图创建新的类似TPC的基准,对大数据系统的性能进行比较和评估.然而到目前为止,还没有一个可用的标准基准.大数据系统的独特性质对新基准的提出带来了如下的挑战。

•系统复杂性

大数据系统通常由多个模块或组件组成,这些模块有着不同的功能并耦合在一起,对整个系统建模和为所有模块提供一个统一的框架并不容易。

•应用多样性

一个好的基准应该反映大数据系统的典型特性,例如应用访问模式和性能需求等.由于大数据系统的多样性,使得提取显著特征非常复杂。

•数据规模

在传统的TPC基准中,测试集通常比真实的客户数据集大得多,因此测试结果能精确的反映真实性能。然而,大数据的数据量巨大并且不断增长,必须考虑一种有效的方式测试具有小数据集的产品。

•系统演化

大数据增长率不断增加,大数据系统必须不断演化,以适应日益变化的需求,因此大数据基准也要迅速变化。

2.研究现状

大数据基准的研究也刚刚起步,可以分为组件级别(component-level)的基准和系统级别的基准。组件级别的基准也称为微基准(micro benchmark),用于评价独立组件的性能;系统级基准提供端到端系统测试框架。在大数据相关组件中,数据存储已发展成熟并可以准确地建模。因此许多微基准被提出用于评价数据存储组件,主要可以分为三类。

•TPC基准

TPC系列基准用于评价关系型数据库的事务性工作负荷。TCP-DS是TPC最近颁布的支持决策制定的基准,它事实上已涉及大数据系统的一些方面。具体来说,TCP-DS能够产生最多100 Terabytes 的结构化数据,并且通过初始化数据库,能在单用户和多用户模型下执行SQL查询。

•NoSQL基准

NoSQL数据库能够高效地处理半结构化和无结构数据,这对大数据集中占较大比例的无结构数据非常适用。Yahoo开发了它的云服务基准——YCSB,用于评价NoSQL数据库。YCSB由产生工作负载的客户和一个标准负载包构成,负载包覆盖了部分性能空间,如大量读操作负载、大量写操作负载和扫描负载.这三种负载可针对Cassandra,HBase,PNUTs和简单的共享MySQL等4种数据存储系统运行.其他一些研究扩展了YCSB框架,集成了一些高级特征,例如预分割、大容量加载和服务器方过滤等。

•Hadoop基准

Hadoop已逐渐成为大数据分析的主流框架,一些研究者试图构建类似TPC的MapReduce基准。GridMix和PigMix是Apache的Hadoop项目中内置的两个测试框架,可以评估Hadoop集群和Pig查询的性能.Palvod等定义了由任务集合构成的基准,将Hadoop和其他两种并行RDBMS系统进行了性能比较,测试结果表明了性能上的tradesoff,并认为未来的系统应该同时考虑这两种类型的体系架构.GraySort是一个已被广泛使用的大规模排序基准,这些基准可以看成是许多类型和大小作业的复杂迭加。通过对Facebook和Yahoo中MapReduce追踪信息的比较和分析,Chen等开发了一个开源的统计工作负载注入器(SWIM),SWIM套件包括三个关键组件:真实MapReduce工作负载仓库,生成代表性工作负载的负载合成工具,和执行历史工作负载的负载重放工具。SWIM套件能够获得基于现实工作负载的性能评估,并能发现系统资源瓶颈。随后他们在文献中对工作负载进行了更复杂的分析。PDMiner则是一个基于大规模数据处理平台Hadoop的并行分布式数据挖掘工具平台。在PDMiner中开发实现了各种并行数据挖掘算法,比如数据预处理、关联规则分析以及分类、聚类等算法。

Ghazal等基于生产零售模型第一次提出了一个端到端的大数据基准——BigBench,由两个主要部件构成:数据生成器和工作负载查询规范。数据生成器可以产生结构化、半结构化和无结构数据这三种类型的原始数据;查询规范则根据McKinsey报告中生产零售商的典型特征,定义了查询类型、数据处理语言和分析算法的类型.BigBench覆盖了大数据系统的“3Vs”特性。

二、大数据科学问题

大数据系统面临的许多挑战需要通过后续的研究解决。在整个大数据生命周期中,从大数据平台和处理模型到应用场景等各方面,都存在一些值得研究的方向。

•大数据基础平台

尽管Hadoop已成为大数据分析的主流框架,但是和发展了40余年的RDBMS系统相比,大数据平台还远未成熟。首先,Hadoop需要集成实时的数据采集和传输机制,提供非批处理方式的快速处理机制。其次,Hadoop提供了一个简化的用户编程接口,隐藏了复杂后台执行的细节,这种简化在一定程度会降低处理性能。应该设计类似于DBMS系统的更先进的接口,从多个角度优化Hadoop性能。再次,大规模Hadoop集群由成千上万甚至几十万台服务器构成,要消耗大量的能量。Hadoop能否大范围部署取决于其能量效率.此外,基础平台的研究还包括海量数据分布式存储管理,实时索引查询,大数据平台功耗,以及海量数据实时采集、传输和处理等问题。Hu等提出了一个基于SDN的大数据平台,用于社交TV数据分析。

•处理模式

现有的批处理模式难以适应海量数据实时处理的需求,需要设计新的实时处理模式.在传统的批处理模式中,数据首先被存储,随后扫描整个数据集并进行处理得到分析结果,时间极大地浪费在数据传输、存储和重复扫描上.新的实时处理模式可以减少这种浪费.例如,现场(in-situ)分析可以避免因数据传输到集中存储基础设施所带来的开销,从而提高实时性能.大数据系统是个系统问题,

在处理模式上需要考虑多方面因素。一个任务的解决不仅仅是算法的问题,与传输和存储等各方面也有关系.仅从计算复杂度来进行分析并不足够,因为理论上计算复杂度低的算法,实际在机器上运行也不一定快.此外,由于大数据低价值密度的特点,可以采取降维或基于采样的数据分析减少处理的数据量.具体而言,处理模式研究涉及大数据可视化计算分析、大数据处理复杂性问题、并行化深度机器学习和数据挖掘算法、异构数据融合、基于海量数据低价值密度采样问题和高维海量数据降维问题。

•大数据应用

大数据的研究刚刚起步,典型大数据应用的研究能够给商业带来利润,提高政府部门效率,并且促进人类科学的发展.主要的应用场景有:图数据并行计算模型和框架,社会网络分析、排名和推荐,web信息挖掘和检索,媒体分析检索和自然语言处理。

•大数据隐私

隐私也是大数据领域的重要问题.用户的信息可能会被遭到暴露,比如企业的营销策略、个人的消费习惯等.特别是在电子商务、电子政务和医疗健康领域,隐私保护显得尤其重要,需要增强访问控制.此外,还需要在增强访问控制和数据处理的便利性之间达到一个平衡。

•“无限”数据

随着云计算、物网联、移动终端、可穿戴设备等技术的发展,我们已经进入了大数据的时代。然而,产生的数据量也随之日益增长。目前的大数据,在不久的将来还只会是小数据。因此,对于未来的大数据最确切的描述,或许会是“无限”数据。相应地,数据的增量和学习方法会是一个重要的问题。例如,当前用10亿个样本训练了一个分类器,效果很好,但未来样本数增加到15亿的时候(之前的10亿样本已经不能完全表达数据的特征),就会面临一个问题,是利用15亿个样本重新训练一个分类器,还是利用新增加的5亿个样本来修正原来用10亿个样本训练得到的分类器呢?如果重新训练分类器,这将会造成过大的时间和空间开销,并且可扩展性差.以往,为了避免重复学习历史样本和减少后继的训练时间,我们可以采用增量学习的方法,即利用历史学习的结果和新增加的样本来修正之前的分类器.但面对不断演化的“无限”大数据,是否需要研究新型的增量学习方法,从而动态自适应地进行预测并确保模型的准确性,或许将会是大数据未来发展需要解决的重要问题。

今天介绍了大数据系统基准和科学问题部分,后面会继续带你认识不一样的大数据。

如果您想长期获取科技信息的解读,记得关注我,我会每天更新,谢谢。同时如果您有什么意见和建议,欢迎评论。

上一篇下一篇

猜你喜欢

热点阅读