大数据大数据,机器学习,人工智能程序员

《十小时入门大数据》学习笔记之初识Hadoop

2018-12-13  本文已影响5人  腊月的梅花

笔记内容概括

1、Hadoop概述

1.1 Hadoop名字的由来

1.2 Hadoop介绍

Hadoop是Apache的一个顶级项目、是开源的、分布式存储+分布式计算平台;它由以下几个模块构成:
Hadoop Common: 这是支持hadoop其他模块的通用工具模块
Hadoop Distributed File System(HDFS):分布式文件系统
Hadoop YARN: 统一资源管理和任务调度
Hadoop MapReduce:基于yarn系统的分布式计算框架
下图是官网的描述:

图片.png
1.3 Hadoop能做什么

搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务,如:智能商业、日志分析、搜索引擎、数据挖掘等场景。

2、Hadoop核心组件

/2.1 HDFS(分布式文件系统)

2.2 YARN(资源调度系统)
2.3 MapReduce(分布式计算框架)

3、Hadoop优势

(1)、高可靠性

4、Hadoop的发展史

这篇博文有很详细的介绍:十年了,Hadoop的前世今生博文链接

5、Hadoop生态系统

5.1 狭义Hadoop VS 广义Hadoop
5.2 Hadoop生态系统的特点

6、 Hadoop常用发行版本和和选型

《十小时入门大数据》之系列学习笔记

《十小时入门大数据》学习笔记之大数据概述

上一篇 下一篇

猜你喜欢

热点阅读