使用Hive内置的解析器构建血缘关系

2020-03-19 本文已影响0人 GoofyWang

背景

最近在做数据血缘关系相关的工作，最初级的版本我们是通过执行计划分析出表到表的计算关系。有同事在看了之后提出，希望能给一个字段到字段的计算关系出来，所以我们做了一些尝试，到今天为止算是有一个大概的东西出来。仓库组的HiveQL一般情况下是写好后，定时调度SparkSQL来执行的。这些HiveQL格式都差不多的样子

insert overwrite table name partition(partition info) select columninfo from table or sql

所以我想，针对这类的HiveQL，我们用Hive的解析器得到语法树，然后遍历语法树得到字段与字段的计算关系。

解析器

Hive的解析器是基于Antlr4的，把SQL扔给这个解析器返回的就是ASTNode为根节点的一棵树，我们写好遍历器，就可以把要解析的东西拿出来了。鉴于我们要的是表和表的依赖关系，以及字段之间的依赖关系，所以关于Where，Group by，Order by等等不影响结果的部分都不做介绍，只把关注点集中在Select From Join Union上。每个人做的时候应该有自己的想法，按照自己想法做，避免被我的思维方式带到沟里，所以代码是不会贴的，只是把HiveQL解析出的语法树关键点的特征罗列一下。

语法树特征

我用几种SQL的片段来做例子，把解析到的结果用echarts的树图展现出来，方便理解。所有的HiveQL解析出的语法树根节点都是EMPTY节点，每个查询语句最后解析出的都是EMPTY节点下的一个TOK_QUERY节点，不再冗述。

带*的查询

语句

insert overwrite table dest_table partition(dt='{0}') select * from db_name.table_name;

解析结果

带星的查询

结果分析

首先，我们可以看到，根节点是一个空节点，然后空节点下面试TOK_QUERY节点。此节点分成了两部分:TOK_INSERT 结果集子节点和TOK_FROM数据来源子节点。
TOK_INSERT：中有两个子节点TOK_DETINATION表示数据要写到哪里去，TOK_SELECT表示选处的结果集中每个字段是如何计算得到的。注意TOK_SELECT下面的TOK_SELEXPR表示的是每个字段，TOK_SELEXPR下面才是这个字段的结果过程，本例中结果集的 * 用一个TOK_ALLCOLREF节点表示。
TOK_FROM: 节点表示的是表或者子SQL是如何关联或Union的。在这个例子里，我们看到的信息还不多，制之后TOK_FROM下面可以有TOK_TABREF这个类型（它表示一张具体的数据表）

多表关联

语句

insert overwrite table dest_table partition(dt='{0}') 
    select * from db_name.table_name_1 t1
                 join db_name.table_name_2 t2 on t1.a = t2.a
                 join db_name.table_name_3 t3 on t2.b = t3.b

解析结果

多表关联

结果分析

这个例子我们不关心结果集部分，只看多表关联。TOK_FROM节点下，是一个TOK_JOIN节点，表示数据来自两个源（有可能是子查询，有可能是表）的关联。TOK_JOIN下面是一个TOK_JOIN，一个TOK_TABREF和一个EQUAL，表示当前TOK_JOIN是由另外两表关联后，再与第三表关联得到的。EQUAL就是关联条件。看到这里，我们也就明白了，尽管我们写了多个表的join，但是HiveQL解析器会把数据表选择两个做一次关联，然后再去关联第三个……以此类推。

多种字段计算

语句


insert overwrite table dest_table partition(dt='{0}') 
select 
    t1.a as t1a , 
    func(t2.a) as t2a ,  --假装我是UDF好了
    case t3.a when 1 then 100 when 2 then 200 else 300 end as t3a_1,
    case when t3.a > 100 then 1 when t3.a < 100 then -1 else 0 end as t3a_2,
    (t1.a  + 2) * t3.a as expr
from db_name.table_name_1 t1 
        join db_name.table_name_2 t2 on t1.a = t2.a
        join db_name.table_name_3 t3 on t2.b = t3.b;

解析结果

多字段计算

结果分析

需要特殊注意的一点是两种不同的case when语句形式得到的节点略有不同

带Union的

语句

insert overwrite table dest_table partition(dt='{0}') 
select * from (
  select a from table_a 
  union all 
  select a from table_b  
  union all 
  select a from table_c
) t;

解析结果

UNION语句

结果分析

UNION也是先两个表UNION，然后再UNION第三个表得到结果的。

总结

看到这里，估计大家对AST树的内部构造有一个大致的了解了，那么后续的工作中可以根据自己的需求，来做相关的解析逻辑。我自己写了一个AST树的遍历工具，然后把树的结构按照echarts里的树图组织一下输出出来，遇到问题的时候就把这个输出的结果贴到echarts的demo页面里，看看解析结果和我解析代码是否有不一致的情况，对分析AST树还是很有帮助的。

子查询的情况没有介绍，其实都差不多，各位可以自行尝试一下

使用Hive内置的解析器构建血缘关系

背景

解析器

语法树特征

带*的查询

语句

解析结果

结果分析

多表关联

语句

解析结果

结果分析

多种字段计算

语句

解析结果

结果分析

带Union的

语句

解析结果

结果分析

总结

猜你喜欢

热点阅读