hive合并小文件

2020-12-09 本文已影响0人早点起床晒太阳

参考资料:https://blog.csdn.net/lalaguozhe/article/details/9053645

我们这边改为底层数据改成hive的parquet表，需要我们这边弄下优化小文件相关，特意总结下

最终参数

SET parquet.compression = snappy; //设置压缩专门针对于stored as parquet的情况
set hive.merge.mapfiles=true; //map-only 时合并
set hive.merge.mapredfiles = true; //mapreduce 时合并
//map端合并
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set mapred.max.split.size=256000000;
//reduce端合并
set hive.merge.size.per.task=256000000;
set hive.merge.smallfiles.avgsize=80000000;

上一篇下一篇

猜你喜欢

热点阅读