第1章 大数据概述

2019-12-14  本文已影响0人  迪丽娜扎

1.1 大数据时代

1.1.1 第三次信息化浪潮

2010年前后兴起的“大数据技术”,是继1980年PC普及、1995年互联网普及之后的第三次信息化浪潮。第三次浪潮以物联网、云计算和大数据为标志,解决新的时代信息爆炸的问题。

1.1.2 大数据技术的技术支撑☆

信息科技发展的三个核心问题是:存储、传输、处理。大数据技术的发展依托于这三项基础技术的发展。

1. 存储技术:更低的成本、更大的容量、更快的读写速度。

2. CPU处理能力:更多的晶体管、更多的核、更高的频率。

3. 网络传输技术:更普及、更高速。

1.1.3 数据产生方式的转变促成大数据时代

数据产生方式经历了以下三种方式的转变

1. 运营式系统:各种企业利用数据库技术存储结构化数据,用于满足自身业务需要。

2. 用户原创内容:移动互联网和智能终端的普及,使得海量的用户产生了海量的原创内容。

3. 感知式系统阶段:物联网的发展、无处不在的各种传感器,在不间断的产生着更海量的数据。

上述数据产生方式的转变,代表了数据量的不断增加。

1.1.4 大数据的发展历程

1. 萌芽期:上世纪,基于数据挖掘理论数据库技术,发展出的BI工具、专家系统等。

2. 成熟期:本世纪前十年,非结构化数据产生,分布式存储和分布式计算技术发展。

3. 大规模应用期:大数据技术进入各行各业,数据驱动决策

1.2 大数据的概念

大数据的特点一般被描述为4V

1. 数据量大(Volume):当今世界上数据量每两年就增加一倍。

2. 数据类型繁多(Variety):结构化数据仅占10%,非结构化数据占90%,包括图片、音频、视频、日志、邮件等。非结构化的数据带来了非关系型数据库技术的发展

3. 处理速度快(Velocity):实时推荐、交互查询等场景,要求在秒级完成万亿张表的聚合查询。

4. 价值密度低(Value):大数据虽然大,但价值密度非常低。一个小区摄像头,采集的录像信息,99.999%都是毫无价值的。要基于用户发的微博评估出其信用水平,大部分微博未必能提供有效信息。

1.3 大数据的影响

1. 影响科学研究的范式 

在实验科学、理论科学、计算科学三种范式之外,提供了第四种范式:数据密集型科学。不是先有假设再去验证假设,而是基于数据挖掘出之前未知的结论。

2. 影响统计的思维方式

全样而非抽样 存储、处理甚至分析方法的进步,使之前的抽样变得没有必要,有多少样本用多少样本

效率而非精确 既是全样本,不用担心误差放大,相比高精确性,快速分析、秒级响应才是更重要的

相关而非因果 推荐系统不会去寻求因为买了A所以会买B的因果性,而是寻求买了A则大概率会买B的相关性,并基于此进行推荐。

除此之外,大数据技术对于社会发展、就业市场、人才培养等均产生影响。

1.4 大数据的应用领域

大数据应用于诸多领域,包括但不限于制造业的故障诊断与预测,金融业的高频交易、信贷风控,汽车业的无人驾驶,互联网业的商品推荐与广告投放,电信,能源,物流,安全等等。

1.5 大数据关键技术☆☆

按顺序描述如下

1. 数据的采集与预处理:从数据源头过来的数据,抽取到临时中间层,清洗、转换、集成等。

2. 数据的存储与管理:预处理后的数据,利用各种文件系统技术、数据库技术等进行存储和管理。

3. 数据处理与分析技术:机器学习、数据挖掘、可视化

1.6 大数据的计算模式☆☆☆

1. 批处理计算:针对大规模数据的非实时批量处理,以MapReduce和spark为最典型的例子

2. 流计算:针对动态数据的实时响应计算。

3. 图计算:针对图结构的数据的计算,如GraphX等。

4. 查询分析计算:针对大规模静态数据的准实时相应查询,如Hive、Impala等。

1.7 大数据产业

包括IT基础设施、数据源层、数据管理层、数据分析层、数据平台层、数据应用层等。

1.8 大数据与云计算、物联网

1.8.1 云计算

1. 云计算的概念

以服务的形式通过网络为用户提供所需的各种IT资源

2. 云计算的关键技术

虚拟化:一台计算机不是从物理上独立,而是在逻辑上独立,即所谓的“虚拟机”。

多租户:在物理硬件上是一体,但在逻辑上是多台计算机,可以同时为多个用户提供服务

分布式存储与分布式计算:云计算所用的计算机不能仅仅是大一号的PC,而是一个分布式集群。事实上,大数据技术起源于云计算。

3. 云计算数据中心

云计算的载体,为云计算提供计算、存储和贷款等硬件资源。

1.8.2 物联网 略

1.8.3 大数据、云计算、物联网三者的关系

云计算为大数据提供了技术基础,大数据为云计算提供了用武之地

物联网是大数据的重要数据来源,大数据技术为物联网数据分析提供支撑

云计算为物联网提供海量数据的存储与分析能力,物联网为云计算技术提供广阔的应用空间。

上一篇下一篇

猜你喜欢

热点阅读