MPP架构知识整理

2020-12-21  本文已影响0人  ShootHzj

什么是MPP

Massively Parallel Processing, 即大规模并行处理

一般用来指多个SQL数据库节点搭建的数据仓库系统。执行查询的时候,查询可以分散到多个SQL数据库节点上执行,然后汇总返回给用户

MPP的核心

上面说的就是纯粹的MPP架构,但现在MPP架构和Sql on Hadoop的区别也变得模糊,比如,为了提高并行度引入类似并行度的概念,为了降低单个节点宕机的影响,引入副本的概念等。

MPP的优缺点

MPP解决了单个SQL数据库不能存放海量数据的问题,但是也存在一些问题,例如:

Sql on Hadoop架构特征

SQL over Processing Framework

"Hadoop通用计算框架+SQL解析引擎", 存储层,执行引擎层,SQL解析层三者分离,可以方便替换执行引擎,对使用者而言,同一份数据可以采用不同并行执行引擎来分析。优点是灵活性高,支持细粒度容错,集群扩展性好,缺点是效率无法保证

OLAP over Hadoop

预计算,即数据都以时间序列的方式进入系统并经过数据预聚合和建立索引,因为是预计算,所以应对多维查询时速度非常快,且稳定,支持高并发,支持集群扩展。缺点是灵活性较差

MPP和Sql on Hadoop的区别

样例产品

MPP

GreenPlum,Presto等

elasticsearch

SQL on Hadoop

Hive,Spark等

参考

上一篇下一篇

猜你喜欢

热点阅读