Hive

Hive-SQl语句转化成MapReduce

2021-02-25  本文已影响0人  八爪鱼下水

备注: 转载来源https://www.cnblogs.com/Dhouse/p/7132476.html

Join的实现原理

在map的输出value中为不同表的数据打上tag标记,在reduce阶段根据tag判断数据来源。

select 
      u.name,
      o.orderid 
from 
      order o 
join 
      user u 
on 
      o.uid = u.uid;
191640a8x51jr17j7655jz.png

Group By的实现原理

将GroupBy的字段组合为map的输出key值,利用MapReduce的排序,
在reduce阶段保存LastKey区分不同的key。
MapReduce的过程如下(当然这里只是说明Reduce端的非Hash聚合过程)

select 
        rank, isonline, count(*) 
from 
        city 
group by 
        rank, isonline;
191653g5133ttr78c38thh.png

Distinct的实现原理

当只有一个distinct字段时,如果不考虑Map阶段的Hash GroupBy,只需要将GroupBy字段和Distinct字段组合为map输出key,利用mapreduce的排序,同时将GroupBy字段作 为reduce的key,在reduce阶段保存LastKey即可完成去重

select 
      dealid, count(distinct uid), count(distinct date) 
from 
      order 
group by 
      dealid;
191706w8s7a81cpbrmxh1a.png

如果有多个distinct字段呢,如下面的SQL

select
 dealid, 
      count(distinct uid),
      count(distinct date)
from 
      order 
group by
     dealid;

(1)如果仍然按照上面一个distinct字段的方法,即下图这种实现方式,无法跟据uid和date分别排序,也就无法通过LastKey去重,仍然需要在reduce阶段在内存中通过Hash去重


191719tk29ikd9dj9ggkrk.png

(2)第二种实现方式,可以对所有的distinct字段编号,每行数据生成n行数据,那么相同字段就会分别排序,这时只需要在reduce阶段记录LastKey即可去重。

这种实现方式很好的利用了MapReduce的排序,节省了reduce阶段去重的内存消耗,但是缺点是增加了shuffle的数据量。

需要注意的是,在生成reduce value时,除第一个distinct字段所在行需要保留value值,其余distinct数据行value字段均可为空。

191736yoa1qatjaez4u748.png

Antlr定义SQL的语法规则,完成SQL词法,语法解析,将SQL转化为抽象语法树AST Tree
遍历AST Tree,抽象出查询的基本组成单元QueryBlock
遍历QueryBlock,翻译为执行操作树OperatorTree
逻辑层优化器进行OperatorTree变换,合并不必要的ReduceSinkOperator,减少shuffle数据量
遍历OperatorTree,翻译为MapReduce任务
物理层优化器进行MapReduce任务的变换,生成最终的执行计划


客户端:
Client CLI(hive shell 命令行),JDBC/ODBC(java访问hive),WEBUI(浏览器访问hive)

元数据:
Metastore:元数据包括:表名,表所属数据库(默认是default) ,表的拥有者,列/分区字段,表的类型(是否是外部表),表的数据所在目录等
默认存储在自带的derby数据库中,推荐使用MySQL存储Metastore

驱动器:Driver
(1)解析器(SQL Parser):将SQL字符转换成抽象语法树AST,这一步一般使用都是第三方工具库完成,比如antlr,对AST进行语法分析,比如表是否存在,字段是否存在,SQL语句是否有误

(2)编译器(Physical Plan):将AST编译生成逻辑执行计划

(3)优化器(Query Optimizer):对逻辑执行计划进行优化

(4)执行器(Execution):把逻辑执行计划转换成可以运行的物理计划,对于Hive来说,就是MR/Spark

存储和执行:
Hive使用HDFS进行存储,使用MapReduce进行计算

上一篇下一篇

猜你喜欢

热点阅读