2020-03-30hive与impala

2020-03-30 本文已影响0人咖啡不解茶

Hadoop是一个开源的大数据框架，最核心的部分包括HDFS和MapReduce，此外还有yarn等组件，其中HDFS用于大数据存储，MapReduce则为海量的数据提供了计算。

Hive是基于Hadoop的数据仓库，存储历史数据用于离线分析，将hivesql转化为MapReduce来进行查询，适用于海量数据离线查询，因此运行速度较慢，不支持实时查询，impala可与hive补充使用，impala不依托于MapReduce，直接使用底层C++查询数据，查询速度快，但内存要求高。

Spark依托于hive，是一个简化版计算引擎，但不使用MapReduce，因此较hive更为稳定，快速，在实际工作中已经形成了离线hive为主，spark为辅，实时flink的大数据查询体系，impala、kylin进行补充

2020-03-30hive与impala

猜你喜欢

热点阅读