Spark权威指南读书笔记(四):生产与应用

2020-12-05  本文已影响0人  kaiker

第十五章 Spark如何在集群上运行

Spark应用程序的体系结构

执行模式

集群模式

集群管理器负责维护所有与Spark应用程序相关的进程,集群的某个worker上会有spark的驱动器
黄点是集群的driver,实线的黄色方框是Spark的驱动器


Spark集群模式
客户端模式

Spark的驱动器保留在提交应用程序的客户端及其上,客户端机器维护Spark驱动器进程


Spark客户端模式
本地模式

在一台机器上运行整个Spark应用程序,通过单机的线程实现并行,不是生产级的运用

Spark应用程序的生命周期(Spark外部)

Spark应用程序的生命周期(Spark内部)

第十八章 监控与调试

Spark UI

SQL Tab
Spark UI SQL tab

每一个蓝色框代表Spark任务的一个阶段,所有这些阶段都代表一个Spark作业

其他Tab

调试和Spark抢救方案

Spark作业未启动
执行期间错误
任务运行缓慢
缓慢的聚合操作
缓慢的链接操作
缓慢的读写操作
驱动器OOM或无响应
执行器OOM或无响应

第十九章 性能调优

间接性能优化

设计选择
集群配置
调度
静息数据(数据的存储)
内存压力和垃圾收集

直接性能优化

并行度
过滤优化
UDF
缓存
连接
聚合
上一篇 下一篇

猜你喜欢

热点阅读