hadoop

Hadoop集群之HDFS

2018-12-03  本文已影响58人  风起云端

HDFS简介

HDFS全称Hadoop Distributed File System,是一个分布式文件系统,基于Google三大论文之一的Google File System开发。主要为了解决在多个普通的节点(廉价的机器,只要有存储空间,cpu和内存要求不高)上存储并访问日益增长的业务数据,并且在理论上可以实现横向无限扩展。

架构介绍

HDFS采用的是主从架构(Master/Slave),其中namenode是主节点,datanode是从节点,如下图所示: HDFS架构

常用命令

HDFS是一个文件系统,它遵循了与Linux类似的POSIX标准,所以有类似于linux的shell命令行操作接口(命令)。主要提供了User Commands、Admin Commands以及Debug Commands:

HDFS命令
常用的用户命令有dfs、fsck,下面举个例子:
1.查看根目录下的文件列表
hdfs dfs -ls /
2.查看根目录下所有文件的大小
hdfs dfs -du /
等,fsck主要用来查看文件的block信息,以及修复损坏的block等。
常用的管理命令有balancer,用来平衡各个Datanode节点之间的存储负载。
具体各个命令的用法可以查询官方文档HDFS命令,自己去探索。

内存受限问题

为了快速响应文件读写请求,HDFS把所有的元数据都存储在Namenode内存中,随着业务数据增多或小文件很多,都会导致Namenode 占用内存不断增加,如果占用内存接近极限,会导致HDFS不可用,这样就导致了内存受限问题。在实际生产环境中,可以用官方的Federation解决方案,按业务分成多个HDFS集群;也可以提前评估数据基数及其增长速度,保证Namenode有足够的可用内存;同时要做好定时小文件的合并。

单点故障问题

我们上面已经讲到Namenode在集群中的地位至关重要,如果它down掉了将影响整个集群的访问,存在单点故障问题,主要表现在以下几方面:

关键指标

上面已经详细介绍了HDFS的架构及高可用原理,现在总结一下HDFS运维过程中应该主要关注的一些指标:
1.Namenode Memory,如果该指标已经占比比较高(90%以上),则需要考虑扩展内存,合并文件,清除无用文件
2.Namenode GC Time,如果GC Time比较长,且Namenode RPC queue wait time比较长,则考虑Journalnode 元数据同步可能有问题,需要重启Journalnode
3.Corrupted Blocks,如果损坏Block较多,需要手动修复
4.Under Replicated Blocks,如果副本数缺失很多,需要手动补充副本。

完。

上一篇 下一篇

猜你喜欢

热点阅读