我爱编程

Hadoop 初识

2018-05-21  本文已影响37人  沐小晨曦

Hadoop的前世今生

Google大数据技术

革命性的变化:

Hadoop的功能与优势

Hadoop是开源的分布式存储和分布式计算平台。

核心组成:

HDFS:分布式文件系统,存储海量的数据

MapReduce:并行处理框架,实现任务分解和调度

功能:

搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务。

优势:

HDFS 分布式文件系统

HDFS设计架构

HDFS中数据管理与容错

HDFS中文件的读写操作

HDFS的特点

适合数据批量读写,吞吐量高;不适合交互式应用,低延迟很难满足;适合一次写入多次读取,顺序写入;不支持多用户并发写相同文件。

MapReduce 并行处理框架

运行原理

分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce)

运行流程

image image

MapReduce的容错机制

WordCount执行过程

image

参考

Hadoop大数据平台架构与实践--基础篇

上一篇下一篇

猜你喜欢

热点阅读