Hadoop HDFS简单介绍
2018-04-12 本文已影响0人
viean
HDFS为Hadoop生态分布式文件存储系统。
其实现分为NameNode及DataNode两部分;
NameNode:
管理文件系统的命名空间,存放文件元数据;
维护文件系统的所有文件和目录、文件与数据块的映射;
记录每个文件中各个块所在数据节点的信息;
DataNode:
存储并检索数据块;
向NameNode更新所存储块的列表;
HDFS优点:
适合大文件存储,支持TB、PB级数据存储,并有副本策略;
构建在廉价的机器上,有容错和恢复机制;
支持流式数据访问,一次写入多次读取效率高;
HDFS缺点:
不适合大量小文件存储;
不适合并发写入,不支持文件随便修改;
不支持随机读等低延时的访问方式;
HDFS写流程
![](https://img.haomeiwen.com/i11588306/4af3ca1e8d5c3849.png)
![](https://img.haomeiwen.com/i11588306/d11936d843b7fb3b.png)
HDFS读流程
![](https://img.haomeiwen.com/i11588306/bcc770f16ed09da0.png)
![](https://img.haomeiwen.com/i11588306/01357ac473924f87.png)