Hive优化

2018-12-18 本文已影响8人 geekAppke

Hive 优化
    核心思想：把Hive SQL 当做Mapreduce程序去优化
    以下SQL不会转为Mapreduce来执行（HDFS执行的）
        select 仅查询本表字段
        where 仅对本表字段做条件过滤

Explain 显示执行计划
    explain extended select count(*) from psn; 

strict 严格模式，防止误操作！
效率太低，要做限制
也很随意！

split map shuffle* reduce
竭尽全力去不经过shuffle

本地模式

开启本地模式：set hive.exec.mode.local.auto=true;
hive.exec.mode.local.auto.inputbytes.max 默认值为128M，表示加载文件的最大值，若大于该配置仍会以集群方式来运行！

并行计算(速度快)

通过设置以下参数开启并行模式：set hive.exec.parallel=true;
注意：hive.exec.parallel.thread.number 一次SQL计算中允许并行执行的job个数的最大值

严格模式下查询限制：

通过设置以下参数开启严格模式：set hive.mapred.mode=strict;（默认为：nonstrict非严格模式）
对于分区表，必须添加where对于分区字段的条件过滤；
order by语句(排序)必须包含limit输出限制；
限制执行~~笛卡尔积的查询。~~

hive> select * from psn3; // 报错❎
FAILED: SemanticException [Error 10041]: No partition predicate found for Alias "psn22" Table "psn22"
hive> select * from psn3 where age=10 and sex='man'; // ✅

hive> select * from psn order by id desc;
FAILED: SemanticException 1:27 In strict mode, if ORDER BY is specified, LIMIT must also be specified. Error enc
ountered near token 'id'
hive> select * from psn order by id desc limit 5;
开启map-reduce操作！

Hive排序

Order By - 对于查询结果做全排序，只允许有一个reduce处理（当数据量较大时，应慎用。严格模式下，必须结合limit来使用）
Sort By - 对于单个reduce的数据进行排序
Distribute By - 分区排序，经常和Sort By结合使用
Cluster By - 相当于 Sort By + Distribute By~~（Cluster By不能通过asc、desc的方式指定排序规则；~~可通过 distribute by column sort by column asc|desc 的方式）

Hive Join

Join计算时，将小表（驱动表）放在join的左边，执行效率高
Map Join：在Map端完成Join
两种实现方式：
a. SQL方式，在SQL语句中添加MapJoin标记（mapjoin hint）
SELECT /*+ MAPJOIN(smallTable) */ smallTable.key, bigTable.value FROM smallTable JOIN bigTable ON smallTable.key = bigTable.key;
b. 开启自动的MapJoin
开启自动mapjoin：set hive.auto.convert.join = true;（该参数为true时，Hive自动对左边的表统计量，如果是小表就加入内存，即对小表使用Map join）

Map-Side聚合

通过设置以下参数开启在Map端的聚合：set hive.map.aggr=true;

控制Hive中Map以及Reduce的数量

（1）Map数量相关的参数

mapred.max.split.size一个split的最大值，即每个map处理文件的最大值
mapred.min.split.size.per.node一个节点上split的最小值
mapred.min.split.size.per.rack一个机架上split的最小值

（2）Reduce数量相关的参数

mapred.reduce.tasks强制指定reduce任务的数量
hive.exec.reducers.bytes.per.reducer每个reduce任务处理的数据量
hive.exec.reducers.max每个任务最大的reduce数

Hive - JVM重用

通过set mapred.job.reuse.jvm.num.tasks=n; 来设置（n为task插槽个数）
缺点：设置开启之后，task插槽会一直占用资源，不论是否有task运行，直到所有的task即整个job全部执行完成时，才会释放所有的task插槽资源！

适用场景：

小文件个数过多
task个数过多

参考资料

Hadoop集群上搭建Hive
Hive建表并加载数据
 Hive参数和动态分区
 Hive分桶
 Hive视图和索引
 Hive运行方式和授权