程序员大数据玩转大数据

hdfs架构与高可用性

2016-04-17  本文已影响630人  trieyouth

前言

hdfs对于超大文件具有超优越的性能,这篇来看看hdfs架构和他的高可用性基础,毕竟不知道原理的程序员不是好的程序。

架构概念

hdfs基本架构

架构的危机

正如武侠小说中那个知道的秘密的人被凶手杀了,一切的线索就断了那样,namenode挂了,或者namenode的数据丢失了,整个hdfs就会瘫痪了。

怎么样当namenode挂了的时候保证hdfs的可用性

举个例子,年事已高的皇帝,为了自己百年之后国家不会大动乱,会提前立一个太子。所以这里其实是同理,找一个替身,当namenode挂了之后,替身继续工作,这就是SecondNameNode进程,在前面配置伪分布式测试环境的时候大家使用jps都会看到这个进程。那么问题来了,SecondNameNode怎么知道NameNode挂了?想法如下:

不足之处:由于可能是网络链路原因导致心跳不通,所以这个方法不是太可行。

不足之处:爱妃挂了,那么整个机器就挂了。

怎么保证hdfs中namenode的数据不丢失

答案还是冗余,将namenode的数据放在三个节点上,三个节点同时丢失的概率就很小了。

那么现在整体的架构就演变成为:

hdfs架构

结束语

思想真的是想通的,保证数据可靠性不丢失永远是冗余,无非就是直接备份与使用一些算法减少冗余产生的数据的体积。这里的实时通信依旧是心跳,还有判断挂了没就是第三方仲裁。

上一篇下一篇

猜你喜欢

热点阅读