大数据技术分享

Spark系列——Spark On Yarn 资源申请流程

2019-10-21  本文已影响0人  code_solve

Spark On Yarn 资源申请流程

到这里我们也基本讲明白了 Yarn-Client 模式的资源申请了,
但是说的比较浅,没有涉及到很多细节,
说来也比较惭愧,Spark 的 Standalone 模式源码倒是看过,
但是到目前为止,都没有深入研究过Yarn的源码,
尽管工作中基本都是用的 Yarn 作为资源管理~~~
所以也只能点到即止了,如果后续有时间,可能会进行补充。

  1. Client 模式因为 Driver 是在提交的机器上面启动的,
    而我们也知道,Driver 在 Spark 任务运行中是承当着 任务调度 和 任务监控的 任务的。
    也就是说 Spark 在运行过程中的所有信息都会向Driver 端进行汇报,
    这也就造成了:

    • 当在Client 端提交的任务过多,会导致 Client 这台机器的负载变大,
      主要还是网卡容易成为瓶颈,一旦出现这种问题,就会导致Driver 超时,
      而Driver超时会使得任务直接就失败。所以生产环境是不建议这么玩的。
    • 同样因为Driver的存在,其监控Spark 任务的全过程,
      其绝大部分日志信息都会向Driver汇总,很方便我们进行调试。
      所以如果你的程序还在测试阶段,那么果断用 Client模式吧,会方便很多。
  2. Client 模式 因为是Driver 的宿主,所以整个任务过程 Client的不能关闭的,
    但是Cluster模式不一样,当任务提交后,
    其实Client在不在已经不影响任务的正常运行了。

上一篇下一篇

猜你喜欢

热点阅读