hive

Hive优化

2018-09-17  本文已影响70人  须臾之北

Hive优化

今天的主要内容——Hive优化

一、Fetch抓取

二、本地模式(小任务)

三、表的优化

1. 小表join大表

2. 大表join大表

2.1 空KEY过滤

2.2 空KEY转化

3. MapJoin

4. Group By

5. count(distinct) 去重统计

6. 笛卡尔积

* 尽量避免笛卡尔积,join 的时候不加 on 条件,或者无效的 on 条件,Hive 只能使用 1个 reducer 来完成笛卡尔积

7. 行列过滤

8. 动态分区调整

9. 分区

10. 分桶

11. left semi join

12. insert into 代替 union all

四、数据倾斜

概述

1. 合理设置map数量

2. 小文件进行合并

3. 复杂文件增加 Map 数

4. 合理设置 Reduce 数

4.1 调整 reduce 个数方法一

4.2 调整 reduce 个数方法二

五、并行执行

六、严格模式

开启严格模式可以禁止 3 种类型的查询。

1. 分区表——where过滤

2. order by 搭配limit使用

3. 限制笛卡尔积的查询。

七、JVM重用(针对同一个job的tasks而言的)

八、推测执行

上一篇 下一篇

猜你喜欢

热点阅读