带你深入浅出学习大数据：价值链之数据生成

2018-08-01 本文已影响20人 Herbert今日看科技

今天继续带大家学习大数据。今天主要介绍大数据价值链的数据生成部分。希望大家持续学习，每天关注，我会连续更新文章，让大家系统学习和认识大数据。

阶段I:数据生成

本次主要分享大数据源的两个方面:大数据源的历史趋势和三种典型的数据源。

一、数据源

大数据生成的发展趋势可由数据产生速率来描述。随着技术的发展，数据产生速率也不断增长。事实上，IBM认为现在世界上90%的数据是近两年产生的。数据爆炸的原因被广为争论。Cisco认为数据的增长来自于视频、互联网和摄像头。由于数据实际上是能被计算机可读的信息抽象，信息通信技术(ICT)是使得信息可读并且产生或捕获数据的主要驱动力。因此本节首先从ICT技术的发展开始，以历史的观点解释数据爆炸的发展趋势。

数据生成的模式可分为3个顺序的阶段：

•阶段1：始于20世纪90年代。随着数字技术和数据库系统的广泛使用，许多企业组织的管理系统存储了大量的数据，如银行交易事务、购物中心记录和政府部门归档等。这些数据集是结构化的，并能通过基于数据库的存储管理系统进行分析。

•阶段2：则始于web系统的日益流行。以搜索引擎和电子商务为代表的web1。0系统在20世纪90年代末期产生了大量的半结构化和无结构的数据，包括网页数据和事务日志等。而自2000年初期以来，许多web2.0应用从在线社交网络(如论坛、博客、社交网站和社交媒体网站等)中产生了大量的用户创造内容。

•阶段3：因移动设备(如智能手机、平板电脑、传感器和基于传感器的互联网设备)的普及而引发。在不久的将来，以移动为中心的网络将产生高度移动、位置感知、以个人为中心和上下文相关的数据。

可以发现，数据生成模式是从阶段1的被动记录到阶段2的数据主动生成，再到阶段3的自动生成。除了用数据产生速率描述，大数据源还与数据产生领域相关。

这里主要对商业、网络和科学研究这三个领域进行大数据相关技术的调研。首先，大数据和商业活动联系紧密，许多大数据工具已经被开发并广泛使用;其次，大部分的数据是由互联网、移动网络和物联网产生的。再次，科学研究会产生大量的数据，高效的数据分析将帮助科学家们发现基本原理，促进科学发展。这三个领域在对大数据的处理方面具有不同的技术需求。

（1）商业数据

过去几十年中，信息技术和数字数据的使用对商业领域的繁荣发展起到了重要的推动作用。全球所有公司商业数据量每1。2年会翻番。互联网上的商业事务，包括B2B和B2C事务，每天有4500亿条。日益增长的商业数据需要使用高效的实时分析工具挖掘其价值。例如，Amazon每天要处理几百万的后端操作和来自第三方销售超过50万的查询请求。沃尔玛每小时要处理上百万的客户事务，这些事务被导入数据库，约有超过2.5PB的数据量。Akamai每天则需分析7500万事件，以更好地实现广告定位。

（2）网络数据

网络(互联网、移动网络和物联网)已经和人们的生活紧密联系在一起。网络应用如搜索、社交网络服务SNS、网站和点击流是典型的大数据源。这些数据源高速产生数据，需要先进的处理技术。例如，搜索引擎Google在2008年每天要处理20PB的数据;社交网络应用Facebook则每天需存储、访问和分析超过30PB的用户创造数据;Twitter每月会处理超过3200亿的搜索。在移动网络领域，2010年有40亿人持有手机，其中约12%的手机是智能手机。而在物联网领域，有超过3000万的联网传感器工作在运输、汽车、工业、公用事业和零售部门并产生数据。这些传感器每年仍将以超过30%的速率增长。

（3）科学研究数据

越来越多的科学应用正产生海量的数据集，若干学科的发展极度依赖于对这些海量数据的分析，这些学科主要包括:

光学观测和监控。在光学遥感和对地观测领域、基于光学等设备的视频监控领域等，往往需要获取连续大量的数据。这些几乎造成管理和处理灾难的数据有一定的周期性，而用户关心的又往往是其中的差异和异常的部分。考虑到这类数据的分析和学习过程往往又同获取这些数据时的装置和参数密切相关，再加上视觉信息对人类的重要性以及用户同系统的必要交互，对光学观测和监控数据的管理和处理已经提高到重要日程。

计算生物学。美国国家生物信息中心NCBI维护了GenBank的核苷酸序列数据库，该数据库大小每10个月翻倍。2009年8月，数据库中存储了来自15万多有机生物体的超过2500亿条核苷酸碱基。

天文学。从1998年到2008年，最大的天文目录SDSS从天文望远镜中获取了25Terabytes数据。随着天文望远镜分辨率的提高，每晚产生的数据量将在2014年超过20Terabytes。

高能物理。欧洲粒子物理实验室中大型强子对撞机实验，在2008年初起以2PB/s的速率产生数据，每年将存储约10PB经过处理的数据。

这些领域不但要产生海量的数据，还需要分布在世界各地的科学家们协作分析数据。由表可以看出，大部分的数据源产生PB级别的无结构数据，并且需要得到快速准确的分析。

二、数据属性

普适感知和计算产生前所未有的复杂的异构数据，这些数据集在规模、时间维度、数据类型的多样性等方面有着不同的特性。例如，移动数据和位置、运动、距离、通信、多媒体和声音环境等相关。NIST提出了大数据的5种属性。

•容量:数据集的大小。

•速度:数据生成速率和实时需求。

•多样性:结构化、半结构化和无结构的数据形式。

•水平扩展性:合并多数据集的能力。

•相关限制:包含特定的数据形式和查询。数据的特定形式包括时间数据和空间数据;查询则可以是递归或其他方式。

通常，科学研究领域的数据源在5种属性中具有最小的属性值;商业领域的数据源则具有较高的水平扩展性和相关限制的需求;而网络领域的数据源具有较高的容量、速度和多样性特征。

今天介绍了大数据价值链的数据生成部分，后面会继续带你认识不一样的大数据。

如果您想长期获取科技信息的解读，记得关注我，我会每天更新，谢谢。同时如果您有什么意见和建议，欢迎评论。

带你深入浅出学习大数据：价值链之数据生成

猜你喜欢

热点阅读