离线计算组件篇-Spark基础

2022-12-03  本文已影响0人  CoderInsight

0.Spark生态系统

Spark内部提供了丰富的开发库,集成了数据分析引擎Spark SQL、图计算框架GraphX、机器学习库MLlib、流计算引擎Spark Streaming。

Spark生态系统.png

(1),Spark 生态系统分层

(2),Spark的四大特征

1), 速度快
2), 易用性

可以快速去编写spark程序通过 java/scala/python/R/SQL等不同语言

3), 通用性

spark框架不在是一个简单的框架,可以把spark理解成一个==生态系统==,它内部是包含了很多模块,基于不同的应用场景可以选择对应的模块去使用

4), 兼容性

spark程序就是一个计算逻辑程序,这个任务要运行就需要计算资源(内存、cpu、磁盘),哪里可以给当前这个任务提供计算资源,就可以把spark程序提交到哪里去运行

1.Spark 基本概念

2.Spark集群架构

spark运行架构-来自《厦门大学-Spark编程基础课程》

(1),架构简介

(2),架构特点

上一篇 下一篇

猜你喜欢

热点阅读