[1802.01415] Big Data Analytics

2020-04-12  本文已影响0人  斑驳岁月再难觅

[1802.01415] Big Data Analytics for Wireless and Wired Network Design: A Survey

Hadi, Mohammed S. et al. “Big Data Analytics for Wireless and Wired Network Design: A Survey.” Computer Networks 132 (2018): 180–199. Crossref. Web.

Abstract

当前,由于移动网络订户,互联网网站和在线服务的数量不断增加,世界上出现了越来越多的数据。这种趋势正在以大数据的形式迅速而多样化地发展。大数据分析可以处理大量原始数据,并提取有用的,较小尺寸的信息,供各方使用,以做出可靠的决策。
在本文中,我们对大数据分析在数据通信网络设计中可以发挥的作用进行了调查。将采用大数据分析的最新进展与网络的控制/流量层相集成,可能是构建具有完善性能和智能功能的强大数据通信网络的最佳方法。
首先,调查从介绍大数据的基本概念框架特征开始。
其次,我们说明采用大数据分析的主要网络设计周期。这个周期代表了统一了被调查主题的总体概念。
第三,详细回顾了当前使用大数据分析进行网络设计的学术和工业领域
第四,我们确定了在网络设计中利用大数据分析所面临的挑战
最后,我们重点介绍了几个未来的研究方向
据我们所知,这是第一项针对大数据分析技术在广泛网络设计中的应用的调查。

Introduction

网络以快速,大型和多样化的方式生成流量,导致每天估计产生2.5 EB的流量[1]。 造成数据量增加的原因很多。 例如,科学实验可以生成大量数据,例如CERN的大型强子对撞机(LHC)每年可生成40 PB以上的数据[2]。 社交媒体也有其份额,用户超过10亿,平均每天花费2.5个小时,在Facebook和Twitter上喜欢,发推文,发布和分享他们的兴趣[3]。 毫无疑问,使用这种活动生成的数据会影响很多方面,例如情报,电子商务,生物医学和数据通信网络设计。 但是,利用此数据的功能并非易事。 为了适应数据爆炸,正在构建具有大量存储和处理功能的数据中心,例如:美国国家安全局(NSA)犹他州的数据中心,可以存储多达1千字节的数据[4],处理能力超过100 petaflops [5]。 由于将数据库扩展到超出处理和/或存储功能的数据量的需求不断增加,因此在计算机群集上运行的系统开始出现。 也许第一个里程碑发生在1986年6月,当时Teradata [6]在Kmart数据仓库中使用了第一个并行数据库系统(硬件和软件),其存储容量为1 TB,以保存所有业务数据并可用于关系查询和业务。 分析[7,8]。 其他示例包括威斯康星大学的Gamma系统[9]和东京大学的GRACE系统[10]。
鉴于上述情况,术语“大数据”应运而生,可以定义为高容量,高速度和高多样性数据,这些数据为进行具有成本效益的决策和通过高级处理提供增强的洞察力提供了大量机会 从数据中提取信息和知识[11]。 定义大数据的另一种方法是说,以有效,简便的方式存储,管理和处理的数据量超出了传统技术的能力[12]。 大数据已经被像Google和Amazon这样的数字化公司雇用,以帮助这些公司进行数据驱动的决策[13]。 它还有助于智慧城市和校园的发展[14],以及农业,医疗保健,金融[15]和交通运输[16]等其他领域的发展。 大数据具有以下特点:

根据研究领域和问题空间,可以添加其他术语或Vs。
例如,此数据是否有价值? 我们可以认为这是准确有效的数据多长时间?
由于我们正在进行一项调查,因此我们迫切需要简要介绍其他V。
通常,一张论文中分析的Vs的数量是3到7(例如6V + C [20]),其中C表示复杂度,但是,不同的论文分析了不同的Vs集以及所有分析的Vs的并集(和) 如表1所示,在所有被调查的论文中,8V和C是8V。

从大数据中提取隐藏的,有价值的模式和有用信息的过程称为大数据分析[44]。 这是通过对大型数据集应用高级分析技术来完成的[28]。 在开始分析过程之前,数据集可能包含某些影响其质量的一致性和冗余性问题。 这些问题是由于数据来源多种多样而引起的。 数据预处理技术用于解决这些问题。 这些技术包括集成,清理(或清理)和冗余消除,作者在[39]中对其进行了讨论。
可以使用许多框架(如下所示)执行大数据分析,这些框架通常需要专门用于此目的的可升级集群[17]。但是,即使可以使用许多商用服务器来组成集群[45],对于希望分析其数据的预算有限的用户来说,这仍然是一个障碍。解决方案通过计算的民主化提出。这使任何规模的公司和企业所有者都可以使用云计算平台进行大数据分析,以分析其数据。因此,大数据分析的使用不仅限于企业级公司。此外,企业所有者不必在昂贵的专用于分析其数据的硬件上进行大量投资[1]。亚马逊是为其客户提供“云计算”大数据分析的公司之一。该服务称为Amazon EMR(Elastic MapReduce),它使用户能够以按需付费的方式以相当低的成本在云中处理其数据。用户能够缩小或扩展计算集群的大小,以控制处理的数据量和响应时间[1,46]

与之相比,可以从网络中收集到的大量数据以及分布式现代高性能计算平台可以带来新的具有成本效益的设计空间(例如,通过采用动态虚拟网络拓扑适应来降低总体拥有成本) 到经典方法(即静态虚拟网络拓扑)[59]。 这种新的模式有望将网络从无形的数据管转变为具有洞察力的上下文感知网络。
我们在本文中的贡献如下:

本文的组织如下:
第2节
介绍了一些案例研究,这些案例研究在无线和有线网络中使用大数据分析。
第3-6节
说明了分别在蜂窝,SDN和内部数据中心,光网络和网络安全领域中采用大数据分析的方向进行的研究。
第7节
总结了行业提供的一些主要的基于大数据的网络解决方案。
第8节
讨论了基于大数据分析的网络设计周期,并重点介绍了在大数据驱动的网络设计中遇到的挑战。
第9节
提出了未来研究的开放方向。
第10节
得出结论。

上一篇 下一篇

猜你喜欢

热点阅读