第一章:初识Hadoop

2018-10-26  本文已影响0人  _rui_

1.2数据存储与分析

数据量增大,使得传统的数据读写速度跟不上,需要通过分布式存储提高读写速度。

分布式读写数据需要解决以下两个问题

1.2.1、硬件故障问题

RAID

HDFS

1.2.2、大多数分析任务需要以某种方式结合大部分数据来共同完成分析

MapReduce·

1.3 与Hadoop协同工作的处理模式

Interactive SQL(交互式SQL)

Iterative processing (迭代处理)

Stream processing (流处理)

Search(搜索)

1.4与其他数据库的区别


1.4.1与关系型数据库的区别

关系型数据库的数据访问模式包含大量的硬盘寻址,而寻址时间的提升远远不敌于传输速率的提升,在读取大量数据集就会花更长的时间,而流数据读取模式的速度主要取决于传输速率。

但是如果只更新一小部分记录,那么传统的B树结构更有优势,当大量数据更新时,B树效率明显落户与MapReduce,因为B树需要重建。

MapReduce适合解决需要以批处理方式分析整个数据集的问题,RDBMS适合于索引后数据集的点查询和更新。

MapReduce适合一次写入,多次读取数据的应用,关系型数据库则适合持续更新的数据集。

Hadoop更适合非结构化的数据,处理数据时才对数据进行解释。


                               传统的关系型数据库         MapReduce

数据大小                 GB                                     PB


数据存取                 交互式和批处理                  批处理


更新                         多次读/写                            一次写入,多次读取


事务                         ACID                                  无


结构                         写时模式                              读时模式


完整性                      高                                          低


横向扩展                   非线性的                               线性的


1.4.2 网格计算

Hadoop尽量在计算节点上存储数据,以实现数据的本地快速访问。

1.4.3志愿计算

志愿计算的是CPU周期

上一篇下一篇

猜你喜欢

热点阅读