大数据技术分享

简谈 HDFS 的高可用 HA

2018-11-23  本文已影响1人  code_solve

作为一个服务提供者,高可用是一个不得不说的话题,那么今天我们就来聊一聊 HDFS 的高可用,我们主要从以下几点来简单说一说:

高可用是什么?

要聊高可用,我们先来了解下以下两个概念:

HDFS的高可用的决定性因素是什么?

我们知道 HDFS 的架构主要是由 NameNode 和 DataNode 组成,其中DataNode宕机是不会对集群正常运行造成什么影响的,当然,不能是灾难性的宕机,一下宕机一大片那种。所以决定 HDFS 高可用的就是 NameNode的高可用了,在 Hadoop 1.0 之前,NameNode也是一直存在 SPOF(单点故障)的,为此也是衍生了一系列的高可用方案。

HDFS 高可用方案?

这个问题放在现在来说,其实没太多好说的了,HDFS 从2.x开始就已经支持自己的 HA 方案了,这不是我们的重点,我们今天主要谈谈曾经为了 HDFS 的高可用 出现的一些方案吧。。。这里需要说明的一点是,HDFS的高可用主要还是针对其 元数据 的高可用。

缺点:

  1. 没有做到热备,当NameNode 无法提供服务时,需要重启NameNode,服
    务恢复时间与文件系统规模大小成正比。
  2. Secondary NameNode 保存的只是Checkpoint 时刻的元数据,因此,一旦
    NameNode 上的元数据损坏,通过Checkpoint 恢复的元数据并不是HDFS 此刻的最新数据,存在一致性问题。

缺点

  1. 该方案主要是解决元数据保存的可靠性问题,但没有做到热备,HDFS 恢
    复服务时,需要重新启动NameNode ,恢复时间与文件系统规模成正比。
  2. NFS 共享的可靠性问题,如果配置的多个目录中有任何一个目录的保存因
    为异常而阻塞,将会导致整个HDFS 的操作阻塞,无法对外提供正常服务。
上一篇下一篇

猜你喜欢

热点阅读