HADOOP 大数据平台

2019-06-12  本文已影响0人  索伦x

HADOOP分层

Hadoop 架构

分层描述

HIVE -- 将HQL查询语句转成MR
HBASE -- 是一个分布式的、面向列的开源数据库,实现对大数据的 快速查找及修改
YARN -- 是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度。可将YARN看做一个云操作系统,类似Mesos
HDFS -- 分布式文件系统,提供容灾及MR
hadoop fs -cmd < args >
hadoop fs -ls / //列出hdfs文件系统根目录下的目录和文件
hadoop fs -ls -R / 列出hdfs文件系统所有的目录和文件
ZK -- 动态注册发现及选举
PIG -- 一种操作hadoop的轻量级脚本语言, 是一种数据流语言,用来快速轻松的处理巨大的数据

Hadoop MR

1. 什么情况下需要用到MR?

a). 业务比较复杂 ,无法用简单的HQL搞定
b). 部分结果集比较大的,需要用MR来提高效率

2.MR运行模式

a). 本地模型运行
在eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行
b). 集群模式运行
将工程打成jar包,上传到服务器,然后用hadoop命令提交 hadoop jar wc.jar cn.intsmaze.hadoop.mr.wordcount.WCRunner

上一篇下一篇

猜你喜欢

热点阅读