大数据系列文章-Hadoop基础介绍(一)

2019-05-21  本文已影响0人  非法小恋

Hadoop项目背景简介

Hadoop之父

Hadoop之父是Doug Cutting,关于他的介绍就不罗列了,大家网上搜索下都能找到,总结下:

  1. 他就职于Yahoo期间,开发了Hadoop项目。而Hadoop项目是根据Google发布3篇的学术论文研究而来,既《Google File System》、《Google MapReduce 》、《Google BigTable》。
  2. 大名鼎鼎的Lucene、Nutch也是他弄出来的。
  3. 他目前在Cloudera公司担任首席架构师工作。

官方网站

http://hadoop.apache.org/

Hadoop六大模块

Apache的其他Hadoop相关项目

Hadoop-HDFS

存储模型

架构模型

HDFS架构图

HDFS架构图
简单介绍下这个HDFS架构图,后面会详细介绍读写流程,所以这里只是带大家简单理解下。

HDFS设计思想

HDFS设计思想

例如一个文件50GB,按照64MB切块的话,切成若干个64MB大小的块。这些块是有副本概念,例如block1,会在不同的Server节点上都有其副本。右上角是描述清单,也就是所谓的原数据,存在NameNode进程中去,其中block1:node1,node2,node3,表示block1的位置信息。

HDFS优点

  1. 高容错性
    • 数据自动保存多个副本
    • 副本丢失后,自动恢复
  2. 适合批处理
    • 移动计算而非移动数据
    • 数据位置暴漏给计算框架(Block偏移量)
  3. 适合大数据处理
    • GB、TB、PB数据
    • 百万规模以上的文件数量
    • 10K+节点
  4. 可构建在廉价机器上
    • 通过多副本,提升可靠性
    • 提供了容错和恢复机制

HDFS缺点

  1. 低延迟数据访问
    • 比如毫秒级
    • 低延迟与高吞吐率
  2. 小文件存储
    • 占用NameNode大量内存
    • 寻找时间超过读取时间
  3. 并发写入、文件随机修改
    • 一个文件只能有一个写入者
    • 仅支持append追加

Hadoop架构中的角色

NameNode(NN)

DataNode(DN)

Secondary NameNode(SNN)

后记

下次,我们将详细介绍HDFS读写流程,敬请期待。
(转发请注明出处:https://www.jianshu.com/u/829cbce64381 如发现有错,请留言,谢谢)

上一篇 下一篇

猜你喜欢

热点阅读