互联网技术

数据科学之路(7)即席查询工具Impala

2020-02-25  本文已影响0人  LiuShaodong

我们在前面两篇中介绍了数据仓库工具 Hive,但是早期的 Hive 是依赖 Hadoop 的 MapReduce 进行并行数据处理,而 MapReduce 作为离线批处理计算框架的延时是非常高的,用 Hive 做实时交互式查询的等待一般都是在分钟级别,这显然无法满足企业的即席查询要求。为了解决实时交互式查询这一问题,Cloudera 公司开发了 Impala,Impala 的查询速度是 Hive 的 3~30倍。当然,Impala 也提供了数据仓库的功能,业界很多人甚至认为,Impala 将会替代 Hive 成为数据仓库最火的工具。

Impala 系统架构

上图给出了 Impala 的整个系统架构,其中黄色标出来的部分是属于 Impala 的系统组件,而蓝色部分是 Hadoop 的其他组件,从这张图小伙伴们就可以明白,Impala 并不是单独部署而是跟 Hadoop 的其他组件部署在同一个集群上的。正是由于部署在同一个集群上,Impala 才可以使用 HDFS 和 HBase 来存储数据,还可以使用 Hive 为其存储元数据!

Impalad(Impala Daemon):驻留在集群的每个 DataNode 节点上的守护进程,与集群中的其他节点上的 Impalad 进行分布式并行工作,负责具体的查询任务,其包含三个模块:Query PlannerQuery CoordinatorQuery Exec Engine
Impalad 主要负责协调客户端提交的查询的执行,与 HDFS 的数据节点(HDFS DataNode)运行在同一节点上,这样可以就近处理数据,实现了计算向数据靠拢。给其他 Impalad 分配任务以及收集其他 Impalad 的执行结果进行汇总,这也比较好理解,对于大规模数据,要想快速得到结果,肯定是分布式查询,将一个大的查询分成很多的子查询,每个子查询(Impalad 执行其他 Impalad 给其分配的任务,对本地 HDFS 和 HBase 里的部分数据进行操作)处理一个节点上的数据,然后再将这些结果进行汇总。

StateStore:负责整个元数据管理和状态信息维护,每个 Impala 的查询提交时,系统都会为其创建一个 StateStored 进程,前面我们刚提到 Impalad 会将一个查询任务分解成很多子查询,并让其他节点上的 Impalad 为其执行子查询任务,那么 Impala 如何知道这些子查询是否成功了呢?就要靠 StateStored 进程去跟踪每个 Impalad 的执行情况以及监控状态信息。所以,StateStored 进程就是负责收集分布在集群中各个 Impalad 进程的资源信息用于查询调度。

CLI:即用户访问接口,给用户提供查询使用的命令行工具。

需要注意的是,Impala 的元数据是直接存储在 Hive 中的。所以,Impala 采用与 Hive 相同的元数据、相同的 SQL 语法,相同的 ODBC 驱动程序和用户接口,这样做的好处是可以在一个 Hadoop 平台上统一部署 Hive 和 Impala 等分析工具,实现在一个平台上可以同时满足批处理和实时查询。

Impala 查询的执行过程

第0步,在用户提交查询之前,Impala 就已经创建了一个负责协调客户端提交查询的 Impalad 进程,该进程会向 StateStore 提交注册订阅信息,StateStore 会创建一个 statestored 进程,statestored 进程通过创建多个线程来处理 Impalad 的注册订阅信息。
第1步,用户通过 CLI 客户端提交一个查询到 Impalad 进程,Impalad 的 Query Planner 对 SQL 语句进行解析,生成解析树,Planner 把这个查询的解析树再变成若干 PlanFragment,发送到 Query Coordinator。
第2步,Coordinator 通过从 MySQL 元数据库中获取元数据,从 HDFS 的 NameNode 节点中获取数据的存储地址,以得到存储这个查询相关数据的所有数据节点。
第3步,Coordinator 初始化相应 Impalad 上的任务执行,即把查询任务分配给所有存储这个查询相关数据的数据节点。
第4步,Query Executor 通过流式交换中间输出,并由 Query Coordinator 汇聚来自各个 Impalad 的结果。
第5步,Coordinator 把汇总后的结果返回给 CLI 客户端。

Impala 与 Hive 的比较

不同点

  1. Hive 适合长时间的批处理查询分析,而 Impala 适合实时交互式 SQL 查询。
  2. Hive 依赖于 MapReduce 计算框架,Impala 把整个执行计划表现为一棵完整的执行计划树,直接分发执行计划到各个 Impalad 执行查询。
  3. Hive 在执行过程中,如果内存放不下所有数据则会启用磁盘,以保证查询可以顺利执行。但是 Impala 在遇到内存放不下的情况时,不会利用磁盘。

相同点

  1. Hive 和 Impala 均采用 HDFS 和 HBase 存储数据。
  2. Hive 和 Impala 均使用相同的元数据。
  3. Hive 和 Impala 均是通过将 SQL 解析处理成计划树,生成执行计划。

那么,通过本篇的讲解,相信小伙伴们已经对 Impala 有了定位,Impala 的存在并不是为了取代 Hive,而是为了弥补 Hive 的处理时间过长,无法做到实时查询的问题。所以,企业在实际使用时,往往是配合使用 Hive 和 Impala,即先用 Hive 对数据进行转换处理之后,再使用 Impala 在 Hive 处理完成的数据集上进行快速数据分析。

上一篇 下一篇

猜你喜欢

热点阅读