spark基础入门-集群模式

2018-08-01  本文已影响9人  一个喜欢烧砖的人

看了忘,忘了有看,然而又忘了,很烦......

什么 app master 、resourceManage、nodeManage、yarn-cluster、yarn-client...(通通全是名字,真的很烦......)

稳住,直接干......

Spark on yarn有分为两种模式

基本概念
从广义上讲

yarn-cluster适用于生产环境;而yarn-client适用于交互和调试,也就是希望快速地看到application的输出。

从深层次的含义讲

此行只是为了对应上面的从广义上讲(别生气,看下面.....)

一、yarn-cluster模式

盗个图先:


image.png

详细步骤:
1、spark 提交application 到yarn上(判断参数是否争取,设置名字,读取配置,设置环境变量等);
2、yarn 为程序在任意一台nodeManage上启动applicationMaster(nodeManage选取是任意的,实现不知道)
3、程序初始化sparkContext,由此nodeManage便作为此程序的driver端;
4、application master 向resourceManage申请资源、地址等;
5、application master 向申请到的nodeManage启动executor运行task;
6、初始化之后的sparkcontext和nodeManage进行消息通讯(心跳机制)

备注:

二、yarn-client模式

再次盗个图先


原谅我,向画图的人致敬

过程略:
yarn-client的不同于是driver端的运行地方不一样;

小结:


注意:spark-shell 和 spark-sql 不能运行在yarn-cluster 模式,只能运行在local和yarn-client 模式上

上一篇下一篇

猜你喜欢

热点阅读