Hive-Spark-Flink 大表join小表处理方式

2022-09-04  本文已影响0人  Eqo

在大数据离线批处理中,需求【大表(事实表)与小表(维度表)】关联字段,进行分析

Hive 默认开启Map端Join

  1. 先加载小表数据 存储到Hash table文件中
    2.将文件中的数据 存放到分布式缓存中
    3.大表中的每个task从分布式缓存中拉取数据
    MapJoin只有maptask 没有reduceTask 没有shuffle 提高了性能

Spark Broadcast Join

spark.sql.autoBroadcastJoinThreshold 值为-1

Flink

两种方式 广播变量 和 分布式缓存

上一篇 下一篇

猜你喜欢

热点阅读