mr内存不足问题解决

2024-06-04  本文已影响0人  后知不觉1

1、yarn的container模型说明

image.png

container的内存分为两部分

container 启动是由appmaster启动,接收appmaster的管理

2、mr 计算过程

image.png

map阶段

shuffle 阶段

reduce阶段

备注:图中缺失reduce的spill小文件阶段

2.1、map的参数
mapreduce.task.io.sort.mb       用于map输出排序的内存大小  100
mapreduce.map.sort.spill.percent        开始spill的缓冲池阈值    0.8
mapreduce.task.io.sort.factor           合并文件数最大值,与reduce共用 10
mapreduce.map.output.compress       输出是否压缩   false
mapreduce.map.output.compress.codec        压缩算法类        DefaultCodec压缩算法
mapreduce.shuffle.max.threads     用于reduce提取结果的线程数量   0 设置为0表示默认值为可用处理器数量的2倍
2.3、reduce的参数
mapreduce.reduce.shuffle.parallelcopies  5 提取map输出的copier线程数 
mapreduce.task.io.sort.factor  10   合并文件数最大值,与map共用
mapreduce.reduce.shuffle.input.buffer.percent  0.70 copy阶段用于保存map输出的堆内存比例
mapreduce.reduce.shuffle.merge.percent   0.66   开始spill文件的缓冲池比例阈值
mapreduce.reduce.merge.inmem.threshold  1000 开始spill的reduce输出文件数阈值,小于等于0表示没有阈值,此时只由缓冲池比例来控制
mapreduce.reduce.input.buffer.percent  0.0 reduce函数开始运行时,内存中的map输出所占的堆内存比例不得高于这个值,默认情况内存都用于reduce函数,也就是map输出都写入到磁盘

3、内存溢出

hive在执行mr任务时,内存溢出分为三中情况

3.1、map阶段

mapjoin 分3个阶段 参考 https://www.cnblogs.com/yeyuzhuanjia/p/17921752.html

生成hashtable时hive会启动本地map , 这时是占用hive的内存。这一般不会出现内存不足的情况;在map 与hashtable进行运算时会出现内存不足的情况

Starting task [Stage-4:MAPREDLOCAL] in serial mode
解决

方法一 、关闭mapjoin使用common join即在reduce端进行join

set hive.auto.convert.join=false;

方法二、调大mr的内存

set mapreduce.map.memory.mb=4096;
set mapreduce.map.java.opts=-Xmx3900m;
set mapreduce.reduce.memory.mb=4096;
set mapreduce.reduce.java.opts=-Xmx3900m;

3.2、shuffle阶段

可以调整mr的参数,也可无脑同上增大内存

3.3、reduce 阶段

方法一、 调整mr参数

set hive.exec.reducers.bytes.per.reducer=30000000  #调整每个reduce处理数据大小,从而增大reduce数进行分散

方法二、也可无脑同上增大内存

常见问题

1、beeline 执行查询获取数据内存不足

beeline默认启动内存128M,查询时返回结果集过大,导致beeline无法承载导致。

    org.apache.thrift.TException: Error in calling method FetchResults
            at org.apache.hive.jdbc.HiveConnection$SynchronizedHandler.invoke(HiveConnection.java:1421)
            .....
    Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded
            at java.util.Arrays.copyOf(Arrays.java:3332)
            at java.lang.StringCoding.safeTrim(StringCoding.java:89)

解决

export HIVE_OPTS=-Xmx1024M
上一篇下一篇

猜你喜欢

热点阅读