大数据面试首页投稿(暂停使用,暂停投稿)程序员

专门为面试而学的大数据

2016-07-31  本文已影响1712人  HarperKoo

1. hdfs原理,以及各个模块的职责

hdfs 架构

Secondary NameNode处理流程
(1) 、 namenode 响应 Secondary namenode 请求,将 edit log 推送给 Secondary namenode , 开始重新写一个新的 edit log 。
(2) 、 Secondary namenode 收到来自 namenode 的 fsimage 文件和 edit log 。
(3) 、 Secondary namenode 将 fsimage 加载到内存,应用 edit log , 并生成一 个新的 fsimage 文件。
(4) 、 Secondary namenode 将新的 fsimage 推送给 Namenode 。
(5) 、 Namenode 用新的 fsimage 取代旧的 fsimage , 在 fstime 文件中记下检查 点发生的时

2. map reduce 的工作原理

mapreduce作业运行流程
map reduce shuffle

其余见 http://www.jianshu.com/p/c97ff0ab5f49

3. hadoop1 与 hadoop2 的区别

http://www.jianshu.com/p/c97ff0ab5f49

4. zookeeper

Zookeeper中的角色主要有以下三类


zookeeper 模型

Zookeeper的核心是原子广播,这个机制保证了各个Server之间的同步。实现这个机制的协议叫做Zab协议。Zab协议有两种模式,它们分别是恢复模式(选主)和广播模式(同步)。当服务启动或者在领导者崩溃后,Zab就进入了恢复模式,当领导者被选举出来,且大多数Server完成了和leader的状态同步以后,恢复模式就结束了。状态同步保证了leader和Server具有相同的系统状态。

当leader崩溃或者leader失去大多数的follower,这时候zk进入恢复模式,恢复模式需要重新选举出一个新的leader,让所有的Server都恢复到一个正确的状态。

5. hbase

HBase是一个构建在HDFS上的分布式列存储系统;
HBase是基于Google BigTable模型开发的,典型的key/value系统;
HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;
从逻辑上讲,HBase将数据按照表、行和列进行存储。


Hbase逻辑视图

多级索引:<key, column family, column name, timestamp>

物理存储:

Hbase组件

为Region server分配region
负责Region server的负载均衡
发现失效的Region server并重新分配其上的region
管理用户对table的增删改查操作

Regionserver维护region,处理对这些region的IO请求
Regionserver负责切分在运行过程中变得过大的region

通过选举,保证任何时候,集群中只有一个master,Master与RegionServers 启动时会向ZooKeeper注册
存贮所有Region的寻址入口
实时监控Region server的上线和下线信息。并实时通知给Master
存储HBase的schema和table元数据
默认情况下,HBase 管理ZooKeeper 实例,比如, 启动或者停止ZooKeeper
Zookeeper的引入使得Master不再是单点故障

reference:
http://www.blogchong.com/?mod=pad&act=view&id=105

上一篇 下一篇

猜你喜欢

热点阅读