我爱编程

Hadoop - 1介绍、环境搭建及配置

2017-07-28  本文已影响38人  hongXkeX

big data介绍

bigdata:

0 分布式
由分布在不同主机上的进程协同在一起,才能构成整个应用。
(同一台主机上的不用进程,他们之间的交互也属于分布式)

1 海量数据

2 存储(大数据需要解决的问题1)

3 计算 (大数据需要解决的问题2)

4 hadoop (大象)

Hadoop官网点我查看

Hadoop 里面的几个点:

大数据广泛应用:

大数据 4V(4个特征):

大数据面试考核考很多Java基础!!!

推荐看的书籍:

目前重点需要看的书:


Hadoop权威指南(第3版) 修订版(带目录书签) 中文PDF高清晰.png 书1.png 书2.png 书3.png

比较前沿的东西 就别指望有中文版 翻译过来之后可能就晚了 而且翻译的质量有的很差! 要去看英文原版
(要掌握计算机专业英语)


环境搭建

hadoop的安装:

hadoop 包含4个模块:

hadoop至少有5个进程:

HDFS对应的进程:

NN-1 NN-2 NN-3 NN-4

YARN对应的进程:

配置Hadoop:

伪分布式

安装ssh注意:
1 禁用wifi
2 关闭防火墙 (windows 控制面板中找)
3 client 能够访问外网 (ping www.baidu.com)
4 修改ubuntu的软件源 [/etc/apt/sources.list]
5 安装ssh:sudo apt-get install ssh
7 查看进程,是否启动了ssh服务:ps -Af | grep ssh
8 ...

其他注意:
在临时目录下 别关机 别重启 重启必须重新格式化

启动所有进程:
start-all.sh 后 用jps命令查看下所有进程 若么没有5个进程(RM NM NN DN 2NN) 则说明启动失败 失败原因要去日志里面找 --> (路径:/hadoop/logs)

完全分布式

目标:


集群目标

scp :
基于ssh的 安全的 远程文件复制程序
命令:scp -r /soft/* ubuntu@s101:/soft (s101是目标计算机名称)
缺点:使用scp 符号连接格式 转变成了 文件格式
(要避开此缺点的坑 请看下面的 rsync 命令)

rsync :
命令 man rsync | more 查看 rsync 帮助说明:

命令 man rsync | more 后效果

命令rsync /etc/environment root@s101:/etc 复制环境变量
命令rsync -rl /soft/* ubuntu@s101:/soft 执行复制(其他参数请看帮助提示)

使用webui访问hadoop hdfs:
1 hdfs webui:http://localhost:50070/

webui

2 data node : http://localhost:50075

data node

3 2NN : http://localhost:50090

2017-08-03 09-16-42屏幕截图.png

附图:
启动所有进程、查看所有进程:


启动、查看所有进程

注意进程关闭顺序:


进程关闭顺序
上一篇 下一篇

猜你喜欢

热点阅读