Hadoop大数据实践总结

2019-07-05  本文已影响0人  今天晴天_8c18

Xzg大数据实践课本总结V3.0

第一章

概述

三部分

1.什么是Hadoop:阿帕奇基金会开源的一个具有可靠性和扩展性的计算存储系统

2.Hadoop四部分:

Hadoop-common(支撑其他模块)

hdfs(支持高吞吐量访问)  

hadoop-yarn(资源管理任务调度框架)

hadoop-mapreduce(并行处理大数据yarn基本系统)

3.阿帕奇与Hadoop相关项目:

HBASE(一个分布式的面向列的nosql开源数据库,主要解决非关系型数据存储问题)

hive(Hadoop上的数据仓库基础架构,将结构化的数据映射成表)

mahout(可扩展的机器学习算法实现包括聚类,分类,推荐过滤,频繁子项挖掘)

pig(大规模数据分析平台)

spart(快速通用的集群计算系统)

zookeeper(能够高校开发和维护分布式的开放源码的应用协调服务)

第二章

Hadoop环境搭建

三部分

1.安装vmware:下一步...

2.安装linux:

Linux四部分(1.Linux内核2.GNU组件3.图形化界面4.软件)

三个网络(桥接 NAT仅主机)

三个图形化界面(Xterm Konsole  Gnome terminal)

两个操作实例1设置ip 2设置主机名映射

3.安装hadoop:

hadoop(安装JAVA)1.修改环境变量/etc/profile(hadoop-env.sh)四个文件(core-site.html,hdfs-site.html,mapred-site.xml,yarn-site.xml)2.激活配置格式化节点开启服务jps

ssh1.进入ssh 2.创建密钥对(ssh-Keygen -t rsa),设置主机免密登录(ssh-copy-id simple02)3.主机登陆simple02

第三章

Hbase

三部分

1.Shell命令: hdfs dfs-ls(hadoop fs,hadoop dfs)

(-help-appendTofile-cat-checksun-chgrp-chmod-chown-copyFromLocal-copyToLocal-count- count-cp-rmr-touchz-rmdir-movefromlocal)

2.Java的API:创建lib,复制jar包,buidPath

3.远程连接:RPC 远程过程调用协议,网络层协议通过TCP/UDP,跨运输层应用层,不需要了解底层,更容易

RPC采用客户服务器模式:1编写接口2编写服务器端3编写客户端(需要实际去看看)

第四章

MapReduce

三部分

1.MapReduce概念

什么是MapReduce:是一种思想(分而治之,迭代汇总),一种分布式计算模型(分而 治 之map(),迭代汇总reduce()),可以解决离线海量数据计算问题,不能解决实时 数据分析处理

数据类型:boolean,byte,int’float,long,double(writable实现后面加writable如 Vintwritable,Vlongwritable)

序列化机制:

序列化(结构化对象转字节流)

反序列化(字节流转结构化对象)

与JAVA序列化区别(Hadoop可复用对象,提高应用效率)

Hadoop序列化特点(紧凑,快速,可扩展,互操作,)

Hadoop序列化作用(分布式环境下进程间通信+永久存储,Hadoop节点间通信)

2.MapReduce架构

Shuff e

1shuffe(map输出为reduce输入)

2map端不写入磁盘写入内容,一定数量写入磁盘,过程中排序合并分区

3reduce端以HTTP协议输出partition复制到缓存,进行mergesort(归并排序),同key排序集中

3.Mapreduc接口类

输入类:FileInputFormate,textinputformate,combinefileinputformate, keyvaluetextinputformate, Nlineinputformate

输出类:textoutputformate,squencefileoutputformate,squencefileasoutputformate, mapfileoutputformat,mutipleoutputformat

第五章

Yarn

两部分

1.概述

MRv2(mapreducVersion2.0)(yarn)原理:Jobtracker分为两部分,资源管理和工作任务,具体有一个sourcemanager和一个nodemanager,sourcemanager接受客户端请求,产生MRAppMaster进程,MRAppMaster分配任务到其他节点并产生TaskMaster

Yarn组成五部分:sourcemanager,nodemanager,MRAppMaster,container,maptask,reducetask

2.执行过程

Yarn执行步骤三端

Resourcemanager端:1,client向resourcemanager提交任务2,resourcemanager创建container告知nodemanager启动MRAppmaster

Nodemanager端:3,启动MRAppmaster4,完成任务向sourcemanager汇报

MRAppMaster:5,与resourcemanager交互,获取资源6,跟nodemanager通信,启动Maptask或reducetask7,向resourcemanager汇报工作

考后总结:

环境变量配置细看端口50070 8088 ssh22号端口

代码细看

上一篇下一篇

猜你喜欢

热点阅读