Spark简介

2021-04-17  本文已影响0人  诺之林

目录

发展

MapReduce

Hadoop

Spark

MapReduce Spark
编程模型 Map和Reduce 不局限于Map和Reduce
还提供多种数据集操作类型
运算效率 每次迭代都要向磁盘写入、读取中间数据
I/O开销大效率低
中间结果直接存放到内存
更高的迭代运算效率
调度机制 N/A 基于DAG的任务调度执行机制更优
Logistic regression in Hadoop and Spark

特性

高性能

系统瓶颈从网络和磁盘I/O 转移到CPU利用率 => Spark2.x的Tungsten项目

通用性

过去 Spark
批处理 MapReduce
Apache Hive / Apache Pig
Spark Core
Spark SQL
流处理 Apache Storm Spark Streaming
机器学习 Apache Mahout Spark MLlib
图计算 Apache Hama Spark GraphX

多语言

编程语言 类型 开发效率 执行效率 交互编程
Scala 编译型 支持(原生)
Java 编译型 不支持
Python 解释型 支持(PySpark)
SQL 解释型 支持(原生)

参考

上一篇 下一篇

猜你喜欢

热点阅读