HDFS 架构

2022-10-30  本文已影响0人  wayyyy

HDFS是Hadoop生态下的分布式文件系统,基于Linux本地文件系统上的文件系统,它的特点是:

  1. 支持超大文件存储
  2. 流式数据访问
  3. 硬件故障的检测和快速应对
  4. 简单的一致性模型
  5. 不适合低延时数据访问、不适合大量小文件的存储、不适合并发写入、文件随机修改
架构图
架构图.png
数据安全

每个文件可以在写入时指定这个文件块的副本数量,也可以在未来修改某个文件的块副本数量,文件块的副本数量配置作为元数据的一部分保存在NameNode中。

当修改某个文件的块副本数量时,NameNode将重新根据策略复制或减少块副本。当某个DataNode超过一定的时间(默认10分钟)没有上报心跳给NameNode,NameNode将认为该DataNode不可用,将不会分配块写入到这个DataNode中,原来分配在这个DataNode的块副本将会重新在其它可用的DataNode上复制。

高可用

没有Namenode,HDFS就不能工作。事实上,如果运行namenode的机器坏掉的话,系统中的文件将会完全丢失,因为没有其他方法能够将位于不同datanode上的文件块(blocks)重建文件。因此,namenode的容错机制非常重要,Hadoop提供了两种机制:

一致性
文件写流程

TODO

文件读流程

TODO

上一篇下一篇

猜你喜欢

热点阅读