Hive-SQl语句转化成MapReduce
备注: 转载来源https://www.cnblogs.com/Dhouse/p/7132476.html
Join的实现原理
在map的输出value中为不同表的数据打上tag标记,在reduce阶段根据tag判断数据来源。
select
u.name,
o.orderid
from
order o
join
user u
on
o.uid = u.uid;
191640a8x51jr17j7655jz.png
Group By的实现原理
将GroupBy的字段组合为map的输出key值,利用MapReduce的排序,
在reduce阶段保存LastKey区分不同的key。
MapReduce的过程如下(当然这里只是说明Reduce端的非Hash聚合过程)
select
rank, isonline, count(*)
from
city
group by
rank, isonline;
191653g5133ttr78c38thh.png
Distinct的实现原理
当只有一个distinct字段时,如果不考虑Map阶段的Hash GroupBy,只需要将GroupBy字段和Distinct字段组合为map输出key,利用mapreduce的排序,同时将GroupBy字段作 为reduce的key,在reduce阶段保存LastKey即可完成去重
select
dealid, count(distinct uid), count(distinct date)
from
order
group by
dealid;
191706w8s7a81cpbrmxh1a.png
如果有多个distinct字段呢,如下面的SQL
select
dealid,
count(distinct uid),
count(distinct date)
from
order
group by
dealid;
(1)如果仍然按照上面一个distinct字段的方法,即下图这种实现方式,无法跟据uid和date分别排序,也就无法通过LastKey去重,仍然需要在reduce阶段在内存中通过Hash去重
191719tk29ikd9dj9ggkrk.png
(2)第二种实现方式,可以对所有的distinct字段编号,每行数据生成n行数据,那么相同字段就会分别排序,这时只需要在reduce阶段记录LastKey即可去重。
这种实现方式很好的利用了MapReduce的排序,节省了reduce阶段去重的内存消耗,但是缺点是增加了shuffle的数据量。
需要注意的是,在生成reduce value时,除第一个distinct字段所在行需要保留value值,其余distinct数据行value字段均可为空。
191736yoa1qatjaez4u748.pngAntlr定义SQL的语法规则,完成SQL词法,语法解析,将SQL转化为抽象语法树AST Tree
遍历AST Tree,抽象出查询的基本组成单元QueryBlock
遍历QueryBlock,翻译为执行操作树OperatorTree
逻辑层优化器进行OperatorTree变换,合并不必要的ReduceSinkOperator,减少shuffle数据量
遍历OperatorTree,翻译为MapReduce任务
物理层优化器进行MapReduce任务的变换,生成最终的执行计划
客户端:
Client CLI(hive shell 命令行),JDBC/ODBC(java访问hive),WEBUI(浏览器访问hive)
元数据:
Metastore:元数据包括:表名,表所属数据库(默认是default) ,表的拥有者,列/分区字段,表的类型(是否是外部表),表的数据所在目录等
默认存储在自带的derby数据库中,推荐使用MySQL存储Metastore
驱动器:Driver
(1)解析器(SQL Parser):将SQL字符转换成抽象语法树AST,这一步一般使用都是第三方工具库完成,比如antlr,对AST进行语法分析,比如表是否存在,字段是否存在,SQL语句是否有误
(2)编译器(Physical Plan):将AST编译生成逻辑执行计划
(3)优化器(Query Optimizer):对逻辑执行计划进行优化
(4)执行器(Execution):把逻辑执行计划转换成可以运行的物理计划,对于Hive来说,就是MR/Spark
存储和执行:
Hive使用HDFS进行存储,使用MapReduce进行计算