大数据入门：Impala框架基础简介

2020-11-25 本文已影响0人成都加米谷大数据

在大数据处理当中，核心的数据分析处理环节，衍生出了非常多的框架组件工具，基于不同场景下的需求，给出了更多可选的技术方案。比如说在交互式查询场景下，Impala就是一个不可忽视的重要选择。今天的大数据入门分享，我们就来讲讲Impala框架入门的一些基础知识。

Impala背景

Impala的出现，追溯其源头，是来自于Google的“新三篇论文”（Caffeine–网络搜索引擎、Pregel–分布式图计算、Dremel–交互式分析工具）之一的交互式分析工具Dremel。

根据实验环境下的测试，Impala进行数据查询，可以实现比Hive快10-100倍，其中SQL查询性能也超过了SparkSQL，号称是大数据领域当前最快的SQL查询工具。

在实际场景下，Impala提供的针对于HDFS、Hbase数据的高性能、低延迟的交互式SQL查询，基于Hive并使用内存进行计算，兼顾数据仓库，具有实时、批处理、多并发等优点，也确实性能优良，因此得到企业级用户的青睐。

Impala基于Hive进行大数据分析查询，直接使用Hive的元数据库metadata，意味着Impala元数据都存储在Hive的metastore当中，并且Impala兼容Hive的绝大多数SQL语法。

在实际应用当中，要保证Impala的正常使用，需要先安装Hive，保证Hive安装成功，并且还需要启动Hive的metastore服务才行。

Impala把整个查询分成一执行计划树，在分发执行计划后，Impala使用拉式获取数据的方式获取结果，把结果数据组成按执行树流式传递汇集，减少的了把中间结果写入磁盘的步骤，再从磁盘读取数据的开销。

使用LLVM产生运行代码，针对特定查询生成特定代码，同时使用Inline的方式减少函数调用的开销，加快执行效率。

充分利用可用的硬件指令（SSE4.2）。

更好的IO调度，Impala知道数据块所在的磁盘位置能够更好的利用多磁盘的优势，同时Impala支持直接数据块读取和本地代码计算checksum。

通过选择合适的数据存储格式可以得到最好的性能（Impala支持多种存储格式）。

最大使用内存，中间结果不写磁盘，及时通过网络以stream的方式传递。

1、Impala比较快，非常快，特别快，因为所有的计算都可以放入内存当中进行完成，只要你内存足够大；

2、摈弃了MR的计算，改用C++来实现，有针对性的硬件优化；

3、具有数据仓库的特性，对Hive的原有数据做数据分析；

4、支持ODBC，JDBC远程访问。

Impala的缺点

1、基于内存计算，对内存依赖性较大；

2、改用C++编写，意味着维护难度增大；

3、基于Hive，与Hive共存亡，紧耦合；

4、稳定性不如Hive，不存在数据丢失的情况。

关于大数据入门，Impala框架基础，以上就为大家做了一个简单的介绍了。Impala这个框架，现如今也同样是Hadoop生态当中的得力干将，学习当中应该予以相应的重视。