第1章 大数据概述
1.1 大数据时代
1.1.1 第三次信息化浪潮
2010年前后兴起的“大数据技术”,是继1980年PC普及、1995年互联网普及之后的第三次信息化浪潮。第三次浪潮以物联网、云计算和大数据为标志,解决新的时代信息爆炸的问题。
1.1.2 大数据技术的技术支撑☆
信息科技发展的三个核心问题是:存储、传输、处理。大数据技术的发展依托于这三项基础技术的发展。
1. 存储技术:更低的成本、更大的容量、更快的读写速度。
2. CPU处理能力:更多的晶体管、更多的核、更高的频率。
3. 网络传输技术:更普及、更高速。
1.1.3 数据产生方式的转变促成大数据时代
数据产生方式经历了以下三种方式的转变
1. 运营式系统:各种企业利用数据库技术存储结构化数据,用于满足自身业务需要。
2. 用户原创内容:移动互联网和智能终端的普及,使得海量的用户产生了海量的原创内容。
3. 感知式系统阶段:物联网的发展、无处不在的各种传感器,在不间断的产生着更海量的数据。
上述数据产生方式的转变,代表了数据量的不断增加。
1.1.4 大数据的发展历程
1. 萌芽期:上世纪,基于数据挖掘理论和数据库技术,发展出的BI工具、专家系统等。
2. 成熟期:本世纪前十年,非结构化数据产生,分布式存储和分布式计算技术发展。
3. 大规模应用期:大数据技术进入各行各业,数据驱动决策。
1.2 大数据的概念
大数据的特点一般被描述为4V
1. 数据量大(Volume):当今世界上数据量每两年就增加一倍。
2. 数据类型繁多(Variety):结构化数据仅占10%,非结构化数据占90%,包括图片、音频、视频、日志、邮件等。非结构化的数据带来了非关系型数据库技术的发展
3. 处理速度快(Velocity):实时推荐、交互查询等场景,要求在秒级完成万亿张表的聚合查询。
4. 价值密度低(Value):大数据虽然大,但价值密度非常低。一个小区摄像头,采集的录像信息,99.999%都是毫无价值的。要基于用户发的微博评估出其信用水平,大部分微博未必能提供有效信息。
1.3 大数据的影响
1. 影响科学研究的范式
在实验科学、理论科学、计算科学三种范式之外,提供了第四种范式:数据密集型科学。不是先有假设再去验证假设,而是基于数据挖掘出之前未知的结论。
2. 影响统计的思维方式
全样而非抽样 存储、处理甚至分析方法的进步,使之前的抽样变得没有必要,有多少样本用多少样本
效率而非精确 既是全样本,不用担心误差放大,相比高精确性,快速分析、秒级响应才是更重要的
相关而非因果 推荐系统不会去寻求因为买了A所以会买B的因果性,而是寻求买了A则大概率会买B的相关性,并基于此进行推荐。
除此之外,大数据技术对于社会发展、就业市场、人才培养等均产生影响。
1.4 大数据的应用领域
大数据应用于诸多领域,包括但不限于制造业的故障诊断与预测,金融业的高频交易、信贷风控,汽车业的无人驾驶,互联网业的商品推荐与广告投放,电信,能源,物流,安全等等。
1.5 大数据关键技术☆☆
按顺序描述如下
1. 数据的采集与预处理:从数据源头过来的数据,抽取到临时中间层,清洗、转换、集成等。
2. 数据的存储与管理:预处理后的数据,利用各种文件系统技术、数据库技术等进行存储和管理。
3. 数据处理与分析技术:机器学习、数据挖掘、可视化
1.6 大数据的计算模式☆☆☆
1. 批处理计算:针对大规模数据的非实时批量处理,以MapReduce和spark为最典型的例子
2. 流计算:针对动态数据的实时响应计算。
3. 图计算:针对图结构的数据的计算,如GraphX等。
4. 查询分析计算:针对大规模静态数据的准实时相应查询,如Hive、Impala等。
1.7 大数据产业
包括IT基础设施、数据源层、数据管理层、数据分析层、数据平台层、数据应用层等。
1.8 大数据与云计算、物联网
1.8.1 云计算
1. 云计算的概念
以服务的形式通过网络为用户提供所需的各种IT资源
2. 云计算的关键技术
虚拟化:一台计算机不是从物理上独立,而是在逻辑上独立,即所谓的“虚拟机”。
多租户:在物理硬件上是一体,但在逻辑上是多台计算机,可以同时为多个用户提供服务
分布式存储与分布式计算:云计算所用的计算机不能仅仅是大一号的PC,而是一个分布式集群。事实上,大数据技术起源于云计算。
3. 云计算数据中心
云计算的载体,为云计算提供计算、存储和贷款等硬件资源。
1.8.2 物联网 略
1.8.3 大数据、云计算、物联网三者的关系
云计算为大数据提供了技术基础,大数据为云计算提供了用武之地
物联网是大数据的重要数据来源,大数据技术为物联网数据分析提供支撑
云计算为物联网提供海量数据的存储与分析能力,物联网为云计算技术提供广阔的应用空间。