华为认证 HCIA-Big_Data_V2.0习题汇总

2020-08-05  本文已影响0人  逆风飞行1226
章节 主题
第01章 大数据行业与技术趋势
第02章 HDFS技术原理
第03章 MapReduce和YARN技术原理
第04章 Spark2x技术原理
第05章 HBase技术原理
第06章 Hive简介
第07章 Streaming技术原理
第08章 Flink技术原理
第09章 Loader技术原理
第10章 Flume技术原理
第11章 Kafka技术原理
第12章 ZooKeeper集群分布式协调服务

第1章 大数据行业与技术趋势

  1. 大数据从什么地方来?这些数据有哪些特点?
    答:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。

特点 4V

  1. 大数据可以应用在哪些社会领域?
    答:政治、金融、教育、出行、旅游、政府公共安全、交通规划及体育

  2. 华为大数据解决方案叫什么?
    答:叫FusionInsight

    华为大数据解决方案

第2章 HDFS技术原理

HDFS在FusionInsight产品的位置

HDFS特性
高容错性:认为硬件总是不可靠的。
高吞吐量:为大量数据访问的应用提供高吞吐量支持。
大文件存储:支持存储TB-PB级别的数据。

  1. HDFS是什么,适合于做什么?
    定义:HDFS是Hadoop技术框架中的分布式文件系统,对部署在独立物理机器上的文件进行管理。

适合:1、大文件存储与访问;2、流式数据访问。
不适合:1、大量小文件存储;2、随机写入;3、低延迟读取。

可用于多种场景,如:

  1. HDFS包含哪些角色?
    角色包括:Client、NameNode、DataNodes、Blocks


    HDFS基本系统架构
  2. 请简述HDFS的读写流程。


    HDFS读写流程
    HDFS读取流程
HDFS架构关键设计

第3章 MapReduce和YARN技术原理

MapReduce概述 YARN概述
YARN在FusionInsight产品中的位置
YARN的组件架构
MapReduce On YARN任务调度流程

1、MapReduce的基本工作原理

2、MapReduce工作原理流程简介

  1. 请简述YARN的工作原理
YARN的组件架构
MapReduce On YARN任务调度流程
YARN HA方案
YARN APPMaster容错机制
YARN资源分配模型 答案:ABD 答案:C 答案:B 答案:ABCD
image.png

第4章 Spark2x技术原理

Spark应用场景
  1. Spark的特点有哪些?


    image.png
  2. Spark相对于MR的优势是什么?

  1. Spark 宽依赖窄依赖的区别是什么?
    主要看父到子之间的对应关系
    一对一是窄依赖
    一对多是宽依赖

  2. Spark的应用场景有哪些?


    Spark应用场景
  3. RDD的算子分为:

  1. SparkCore模块是Spark最核心的模块
    image.png
    image.png
    image.png
    image.png
    image.png

7.RDD的依赖类型分为


窄依赖和宽依赖

第5章 HBase技术原理

HBase与RDB的对比

HBase应用场景

HBase在FusionInsight中的位置

HBase在FusionInsight中的位置

HBase 思考题

  1. HBase的Region在split时可以提供服务吗?
    答:正在split的Region不可以提供服务,但一张表当中可以有多个Region,当前处于split的Region不影响其他Region提供服务。

  2. HBase的Region split有何好处?
    答:split可以完成一个负载均衡的过程。

答案:AB
答案:D,HBase最小的分布式存储单元为Region

第6章 Hive简介

Hive是基于Hadoop的数据仓库软件,可以查询和管理PB级别的分布式数据。


Hive在FusionInsight中的位置

Hive特性:

Hive的应用场景 Hive与传统数据仓库比较1 Hive与传统数据仓库比较2 答案:BCD
答案:D

第7章 Streaming技术原理

Streaming基于开源Storm,是一个分布式、实时计算框架

Streaming具有以下几种特点:

Streaming在FusionInsight中的位置

Streaming是一个实时的分布式的实时计算框架,在实时业务中有广泛应用。

Streaming应用场景

基本概念

系统架构

思考题

  1. Streaming是如何保障消息可靠性?


    消息可靠性
答案:ABCD
答案:B

第8章 Flink技术原理

Flink特点

Flink应用场景

Flink关键特性

Flink架构 Flink应用运行流程 Flink作业运行流程 Flink在FusionInsight产品中的位置

FusionInsight HD提供大数据处理环境,基于社区开源软件增强,按照场景选择业界最佳实践。
Flink是批处理和流处理结合的统一计算框架,用于高并发pipeline处理数据,时延毫秒级的场景响应,且兼具可靠性。

Flink思考题

  1. Flink的特点有哪些?


    Flink特点
  2. Flink的常用窗口类型有哪些?


    Tumbling Windows
Sliding Windows
Session Windows

第9章 Loader技术原理

什么是Loader
Loader是实现FusionInsightHD与关系型数据库、文件系统之间交换数据和文件的数据加载工具。提供可视化向导式的作业配置管理界面;提供定时调度任务,周期性执行Loader作业;在界面中可指定多种不同的数据源、配置数据的清洗和转换步骤、配置集群存储系统等。

Loader在

Loader特点

Loader特点

思考题

  1. 判断题:FusionInsight的Loader仅支持从关系型数据库与Hadoop的HDFS的HBase之间的数据导入、导出。(F)

  2. 判断题:Loader作业必须配置转换步骤。( F)

答案: 选择题2

第10章 Flume技术原理

Flume在FusionInsight中的位置

思考题

1.Flume是什么,可以用来干什么?
答:Flume是流式日志采集工具,Flume提供对数据进行简单处理并且写到各种数据接受方(可定制)的能力,Flume提供从本地文件(spooling directory source)、实时日志(taildir、exec)、REST消息、Thrift、Avro、Syslog、Kafka等数据源上收集数据的能力。


Flume能干什么

2.Flume有哪些关键特性?


Flume支持采集日志文件 Flume支持多级级联和多路复制 Flume级联消息压缩、加密 Flume数据监控 Flume传输可靠性 Flume传输可靠性(failover) Flume传输过程中过滤数据

3.Source/Channel/Sink分别有什么作用?


Source基本概念 Channel基本概念 sink基本概念

4.Flume可以级联:即可以多个Flume之间可以传输数据。(T or R)

答:T

第11章 Kafka技术原理

Kafka定义:Kafka是一个高吞吐、分布式、基于发布订阅的消息系统,利用Kafka技术可在廉价PC Server上搭建起大规模消息系统。


Kafka应用场景简介 答案:ABC 答案:B

1、Kafka是如何保障数据可靠的?
答:

Kafka所有消息都会被持久化到硬盘中,同时Kafka通过对Topic Partition设置Replication来保障数据可靠。


消息传输保障 Kafka消息传输

2、Kafka客户端提供的Shell命令可以对Topic进行哪些操作?

答:create/delete/list/describe

第12章 ZooKeeper集群分布式协调服务

ZooKeeper简介 ZooKeeper在FusionInsight当中的位置

ZooKeeper基于开源Apache ZooKeeper作为底层组件为上层组件提供服务,主要用于解决分布式应用中经常遇到的一些数据管理问题。

ZooKeeper服务架构

ZooKeeper关键特性

ZooKeeper和Streaming ZooKeeper和HDFS ZooKeeper和YARN ZooKeeper和HBase

思考题

  1. ZooKeeper在集群中的位置及作用?
    答:ZooKeeper处于底层的位置,为上层组件和应用提供分布式协调的服务。

  2. ZooKeeper为什么建议奇数部署?
    答:为了更好的完成容灾以及性能达到最大化,ZooKeeper通常采用奇数台的部署。

  3. ZooKeeper一致性的含义是什么?
    答:无论连接哪一个Server它所拿到的视图和数据都是一致的。

第13章 FusionInsight HD解决方案介绍

FusionInsight平台架构 系统可靠性,数据可靠性

e

上一篇 下一篇

猜你喜欢

热点阅读