2020-03-30hive与impala

2020-03-30  本文已影响0人  咖啡不解茶

    Hadoop是一个开源的大数据框架,最核心的部分包括HDFS和MapReduce,此外还有yarn等组件,其中HDFS用于大数据存储,MapReduce则为海量的数据提供了计算。

    Hive是基于Hadoop的数据仓库,存储历史数据用于离线分析,将hivesql转化为MapReduce来进行查询,适用于海量数据离线查询,因此运行速度较慢,不支持实时查询,impala可与hive补充使用,impala不依托于MapReduce,直接使用底层C++查询数据,查询速度快,但内存要求高。

    Spark依托于hive,是一个简化版计算引擎,但不使用MapReduce,因此较hive更为稳定,快速,在实际工作中已经形成了离线hive为主,spark为辅,实时flink的大数据查询体系,impala、kylin进行补充

上一篇 下一篇

猜你喜欢

热点阅读