
Hadoop的资源管理系统 —— Yarn

  Yarn 是 Hadoop 的资源管理系统,用于取代 MapReduce1 的资源调度,改善 MapReduce 的实现,并且有足够的通用性,可以支持其他的分布式计算模式

  一般情况下,应用不直接使用 Yarn 的API,而是通过一些分布式计算框架(MapReduce、Spark等)来间接实现资源调度管理,使用这些框架的 Yarn 应用运行在集群计算层(Yarn)和集群存储层(HDFS、HBase)上。


  Yarn 主要由两部分组成:resource manager、node manager。

  资源管理器(resource manager)管理集群上资源的使用,节点管理器(node manager)运行在集群中所有节点上且能够启动和监控容器(container)。容器用于执行特定应用程序的进程,每个容器都有资源限制(内存、CPU)。

  在 Yarn 上运行一个应用的步骤如图所示:

① 客户端向资源管理器提交一个运行一个应用的请求;

② 资源管理器找到一个 NM,在上面创建一个 container,并启动应用进程;

③ 应用可能只是简单地运行一个计算,并将结果返回给客户端;也可能向 RM 请求更多的容器来运行一个分布式计算;

④ RM 响应应用要求创建更多的 container 并启动应用进程执行运算。

三、与MapReduce1 的对比

1、MapReduce1 的管理

  在 MapReduce1中,有两类守护进程控制作业执行过程:jobtracker、tasktracker

  jobtracker 通过调度 tasktracker 上运行的任务来协调所有运行在系统上的作业,记录每项作业任务的整体进度情况,若有任务失败,则在另一个 tasktracker 节点上重新调度该任务。

  tasktracker 在运行任务的同时将运行进度报告发送给 job tracker。

2、Yarn 的管理

  MapReduce1 的 jobtracker 既要负责资源管理(作业的调度分配),将任务分配给不同的 tasktracker;又要负责任务进度的监控。如果集群非常繁忙,每时每刻都有大量的作业,每个作业下又有很多任务,jobtracker 需要面面俱到了解每个任务的执行情况,负担很重。

  在 MapReduce2 对 Yarn 的应用中,一般是会先让 RM 启动容器运行一个 Application Master 的进程,然后该进程负责创建和监控所有的 map task 和 reduce task,了解每个 task 的执行进度,每个 task 都会运行在一个单独的 container 中,这些 container 都是 Application Master 统一调度负责向 RM 申请的,这样就把资源分配和作业运行调度监控解耦,让 Yarn 专注于资源调度。

Yarn 相比 MapReduce1的优势:

① 可扩展性

Yarn 只负责资源分配作业调度,而 MapReduce1 要同时管理资源分配和任务执行。

② 可用性

每个作业都有一个专门的 application master 负责管理任务,Yarn 专注资源管理,不需要保留太多的元数据,实现 HA 时可较快转移,从而实现资源管理的高可用。而 Hadoop 实现作业的高可用也不用关心资源管理的问题,分而治之。

③ 利用率

MapReduce1 会在 tasktracker 中配置有若干固定长度的 slot,通过 slot 指定某些 slot 为 map slot,某些 slot 为 reduce slot,被指定的 slot 只能用于执行 map 或 reduce,可能会出现 map slot 空闲但是 reduce slot 不够用的情况,资源管理粗放,利用率低。

④ 多租户

Yarn 作为一个资源调度管理系统,不仅可用于 MapReduce,还可以用于 Spark、Tez 等分布式应用,间接向它们开放了 Hadoop。



  FIFO 调度器将应用放置在一个队列中,然后按照提交的顺序(先入先出)运行应用。






  每个队列都被分配了一定比例容量的资源,保证大作业不会占用整个集群的所有资源。一般每个队列对应一个组织,这样就允许了多个组织共享一个 Hadoop 集群,每个组织可以分配到集群资源的一部分。队列可以进一步按层次划分,这样每个组织内的不同用户能够共享该组织队列所分配的资源。

  在一个队列内,使用 FIFO 调度策略对应用进行调度,但是一个job可能使用不了整个队列的资源。然而如果这个队列中运行多个job,如果这个队列的资源够用,那么就分配给这些job。




  容量调度器是 Hadoop2.7 默认的调度器,在 yarn-site.xml 中通过以下参数配置:


  "弹性队列":如果队列 queue 资源不够用了,而其他队列可能是有空闲可用的资源,那么容量调度器可能会将空余的资源分配给队列 queue 中的队列,这种特性称为 "弹性队列"。可以通过 yarn.scheduler.capacity.<queue-path>.maximum-capacity 参数来控制队列最大占用集群资源容量的比例。




  在 root 队列下定义两个队列:prod、dev。分别占用集群 40%、60% 的容量。

  prod 没有设置最大容量限制,所以当 dev 队列空闲,prod 资源不足时,可能会占用整个集群 100% 的资源。

  dev 队列设置了最大容量显示为 75%,也就是及时另外 25% 的资源空闲,dev 最大也只能占用整个集群 75% 的资源。dev 队列下还有子队列 eng、science,容量都是 dev 容量的 50%,没有为子队列设置最大容量,所以每个子队列最大都可能占用 dev 队列 100% 的资源,所以占用的整个集群的绝对资源大小为 30%~75%。


  将上述示例的配置添加到 hadoop 配置文件目录下的 capacity-scheduler.xml 中,启动 Yarn,上控制台(可以看到配置的队列容量限制。


  可以看到 prod 队列容量限制是 40%,最大容量限制不设置则默认为 100%。

  dev 的两个子队列,占用 dev 队列的相对容量大小为 50%~100%,占用整个集群的绝对容量大小为 30%~100%。



  公平调度器就是在队列内,所有的作业平等地分配资源,如果队列中只有一个作业,可以占用 100% 的资源;此时进来一个新的作业,则会调度到每个作业占用 50% 的资源,以此类推。


  现在有两个队列 A、B。当 A 执行第一个作业,而 B 没有作业时,A可以占用整个集群的资源;当 A 作业还没完成,B 执行一个作业,则经过一段时间之后,两个作业各占用集群一半的资源;当 B 启动第二个作业时,队列内部的两个队列共享队列 B 的资源,经过一段时间,各占用集群 1/4 的资源,A 继续占用一半的集群资源。最终结果就是资源在用户之间实现了公平共享。



  启用公平调度器,在 yarn-site.xml 中添加以下配置:



  <description>开启资源抢占,default is True</description>

  <description>设置成true,当任务中未指定资源池的时候,将以用户名作为资源池名。这个配置就实现了根据用户名自动分配资源池。default is True</description>

  <description>是否允许创建未定义的资源池。如果设置成true,yarn将会自动创建任务中指定的未定义过的资源池。设置成false之后,任务中指定的未定义的资源池将无效,该任务会被分配到default资源池中。,default is True</description>

  创建公平调度配置文件 fair-scheduler.xml,内容如下:

<?xml version="1.0"?>
  <queue name="prod">
  <queue name="dev">
    <queue name="eng"/>
    <queue name="science"/>
  <!-- 调度规则列表 -->
    <rule name="specified" create="false" />
    <rule name="primaryGroup" create="false" />
    <rule name="default" queue="dev.eng"/>



  将上述的配置配置好,启用 Yarn,web console 上看到的调度器如下:


