Hive相关优化

2019-07-16  本文已影响0人  山间浓雾有路灯

map优化

优化并发个数

block大小会影响并发度

相当于开启Combiner功能

reduce优化

优化并发个数

MapReduce出现痛点

只有一个reduce情况

示例

笛卡尔积

如何加快查询速度

精华总结

1.分区partition

2.Map Join

3.union all

4.multi-insert & multi group by

5.Automatic merge

6.Multi-Count Distinct

select dt,count(distinct uniq_id),count(distinct ip) from logs where dt = xxxx group by dt

7.并行执行

如何加快join操作

数据倾斜问题

业务场景

大小表关联

大大表关联

聚合时存在大量特殊值

空间换时间

上一篇 下一篇

猜你喜欢

热点阅读