Hadoop 1
客户机桌面版模式和文本模式切换
1、 ctrl +alt +f6 //文本模式
2、ctrl +alt + f7 //桌面模式
开机进入文本模式
根目录下 进入boot 下有个grub
image.png
想改变 此文件
image.png
1、修改 /etc/default/grub文件
image.pnggrub的配置文件
image.png image.png
标出的内容就是图形模式
修改为
GRUB_CMDLINE_IINUX_DEFAULT="text"
2、运行update-grub 更新启动项
sudo update-grub
然后重启直接进入文本模式
快捷键进入图形界面不好使
运行命令 startx 手动启动图形界面
1、客户机的环境处理
主机名的更给
可看见主机名并没有改变 重启即可
ip
localhost 是域名 映射到 127.0.0.1
将主机号 101 映射到 ip上
需要改变 host文件
dns解析
/etc/hosts
将其他主机的 主机号 ip映射到下图中 image.png
在进行ping 的时候 就通过 hosts文件找到通过名称就可得到ip
image.png image.pnghadoop
image.png改变文件夹的拥有者
image.png环境变量的配置
当前用户的环境变量
当前用户的主目录下
但以其他用户登录就不能用
系统的环境变量
对 enviroment 进行编辑
sudo nano enviroment
将jdk的安装目录加进去
image.png通过 source 使刚才的的环境变量立即生效
source /etc/enviroment
可通过符号链接将目录中变成如下
hadoop 的环境变量
a
hadoop的配置
hadoop包含三个模块
1、Hadoop Common
支持其他模块的工具模块
2 Hadoop HDFS
分布式文件系统(逻辑上的 大数据的存储实际落到每个节点的操作系统上去 但我们可以在更高的层次上操作它) 提供了对应用程序数据的高吞吐量访问
例如 在 /user/ubuntu/home/xx.txt 有1T大小的文件 在底层每个磁盘分一点存储 但我们不关心他是如何存储 我们只跟hadoop打交道 hadoop已经帮我们实现了底层的存储
HDFS的进程
Namenode //名称节点
DataNode //数据节点
SecondaryNamenode //辅助名称节点
3、Hadoop YARN
作业调度与集群资源管理的框架
【进程】
ResourceManager //资源管理器
NodeManager //节点管理器
3、Hadoop MapReduce
基于yarn系统的对大数据集进行并行处理技术 image.png
Hadoop的三种配置
1、Standalone/local
独立/本地模式
不需要配置任何东西 默认就是独立模式
查看文件系统
hadoop fs -ls 可发现用的是linux的文件系统
没有启动任何进程
2、Pseudodistributed node
伪分布式模式(只有一台机器 一个节点)
配置ssh
安全登录
1)、安装ssh
sudo apt-get install ssh
2)、生成秘钥对
ssh-keygen -t rsa -P '' -f ~/.ssh/
cd ~/.ssh //查看生成的公私秘钥
3)、导入公钥数据到授权库
cat ~/.ssh/id_rsa_pub >> ~/.ssh/authorized_keys
image.png
4)、无密登录 localhost
ssh localhost (在 100 机器上)
......yes
exit
ssh localhost //不需要密码
5)、格式化 hdfs
hadoop namenode - fornate
6)、启动所有进程
start-all.sh
7)查看所有进程
jps
安装ssh注意事项
1)禁用wifi
2)关闭防火墙
3)客户机能够 ping通外网
4)修改ubuntu 的软件源
[/etc/apt/sources.list]
做ali源
image.png
image.png
image.png
image.png
image.png
image.png
image.png image.png
在101机器上
安装ssh
image.png
将100机器的公钥传给101
在100机器上无密登录101机器
image.png
image.png
image.png
导 入结果
image.png
然后 在100机器上无密登录101机器
查看进程
image.png
3、Fully distributed node
完全分布式(n多台机器)