hadoop 学习笔记（3）-- YARN 简介

2017-05-07 本文已影响264人 millions_chan

本部分主要是关于 YARN。Yarn 是在 hadoop 2 中引入的资源管理系统。用户代码并不会与其直接交互，但是许多分布式计算框架都是作为一个 Yarn 应用来运行的。

yarn applications

还有一些应用如 Pig，Hive，Crunch 等是运行在 MP，Spark 或 Tez 上的，不会与 Yarn 直接交互。

Yarn Application 运行

YARN 有两种 daemon 进程：

resource manager 每个集群一个，管理集群资源的使用
node manager 集群中每个 node 都有，启动和监控 containers。

通过 jcmd 可以看到这些 daemon 进程：

hadoop@millions-server:~$ jcmd
22256 org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode
22561 org.apache.hadoop.yarn.server.nodemanager.NodeManager
21973 org.apache.hadoop.hdfs.server.namenode.NameNode
22085 org.apache.hadoop.hdfs.server.datanode.DataNode
20141 sun.tools.jcmd.JCmd
22447 org.apache.hadoop.yarn.server.resourcemanager.ResourceManager

Yarn 应用运行的过程可以用下图描述，容器请求可以表述为容器消耗的计算资源的量（主要包括 CPU 和内存）：

YARN 调度

当集群资源紧缺时，需要按照一些预定的策略来分配给不同的任务资源。有三种调度方式：

FIFO：
先进先出，但是在共享型集群中不合适
Capacity scheduler（hadoop 默认的）：
(1) 计算能力保证。支持多个队列，某个作业可被提交到某一个队列中。每个队列会配置一定比例的计算资源，且所有提交到队列中的作业共享该队列中的资源。
(2) 灵活性。空闲资源会被分配给那些未达到资源使用上限的队列，当某个未达到资源的队列需要资源时，一旦出现空闲资源资源，便会分配给他们。
(3) 支持优先级。队列支持作业优先级调度（默认是FIFO）
(4) 多重租赁。综合考虑多种约束防止单个作业、用户或者队列独占队列或者集群中的资源。
(5) 基于资源的调度。支持资源密集型作业，允许作业使用的资源量高于默认值，进而可容纳不同资源需求的作业。不过，当前仅支持内存资源的调度。
Fair Scheduler
在多个 Job 间分配资源，如果只有一个 Job 则其享有全部资源，如果加入新的 Job，则资源在2个 Job 间分配。

Capacity Scheduler 的配置

对于 Capacity scheduler，会将 Job 提交到若干 Queue中，然后每个 Queue 是 FIFO 的，如果 Queue 中有超过一个 Job，并且有空闲资源，给这个 Queue 分配的资源是可以超过其预定的量的。

一个配置文件的示例（配置文件为 capacity-scheduler.xml），有层次的在各个队列之间分配资源比例：

 <property>
    <name>yarn.scheduler.capacity.root.queues</name>
    <value>dev,prod</value>
    <description>
      The queues at the this level (root is the root queue).
    </description>
  </property>

  <property>
    <name>yarn.scheduler.capacity.root.prod.capacity</name>
    <value>40</value>
  </property>

  <property>
    <name>yarn.scheduler.capacity.root.dev.capacity</name>
    <value>60</value>
  </property>

  <property>
    <name>yarn.scheduler.capacity.root.dev.maximum-capacity</name>
    <value>75</value>
  </property>

  <property>
    <name>yarn.scheduler.capacity.root.science.capacity</name>
    <value>50</value>
  </property>

  <property>
    <name>yarn.scheduler.capacity.root.dev.eng.capacity</name>
    <value>50</value>
  </property>

详细的配置说明在这里官方文档。

在提交 Job 时，可以指定 Queue，对于 MapReduce，可以指定 property mapreduce.job.queuename。

Fair Scheuler 配置

Fair 调度也有 Queue 的概念，资源在 Queue 之间是公平分配的，对同一个 Queue 中的 Job，资源同样是均匀分配的。比如 2 个 Queue：Queue1 Queue2；Queue1 有 Job1，Queue2 有 Job2 以及 Job3，则 Job1 使用 50% 资源， Job2 和 Job3 各 25% 资源。

在 yarn-site.xml 中设置 yarn.resourcemanager.scheduler.class 可以修改默认的 scheduler：org.apache.yarn.server.resourcemanager.scheduler.fair.FairScheduler。

Fair Scheuler 的配置文件为 fair-scheduler（可以通过 yarn.scheduler.fair.allocation.file 修改）:

<?xml version="1.0"?>
<allocations>
  <defaultQueueSchedulingPolicy>fair</defaultQueueSchedulingPolicy>
  <queue name="prod">
    <weight>40</weight>
    <schedulingPolicy>fifo</schedulingPolicy>
  </queue>
  <queue name="dev">
    <queue name="eng">
    <queue name="science">
  </queue>
  <queuePlacementPolicy>
    <rule name="specified" create="false">
    <rule name="primaryGroup" create="false">
    <rule name="default" create="dev.eng">
  </queuePlacementPolicy>
</allocations>

defaultQueueSchedulingPolicy 默认为 fair，也可以指定为 FIFO 等。通过 weight 可以分配 Queue 之间分配资源的比例。更详细的配置细节见官方文档。

如何将 Job 放到指定的 Queue 中去由 queuePlacementPolicy 决定：对每一条 rule 逐一尝试。specified 指由应用自己指定 Queue 的名字，如果没有指定或指定的 Queue 不存在，则进入下一条；primaryGroup 指使用用户的 unix group 作为队列名称；最终默认的队列是 dev.eng，将会处理所有没有被处理的 Job。默认的策略是：

  <queuePlacementPolicy>
    <rule name="specified">
    <rule name="user">
  </queuePlacementPolicy>

抢占式

配置 property yarn.scheduler.fair.preemption 设置为 true 可以使 Job 抢占式的获取资源，而不用等别人释放。

延迟以本地运行

配置 property yarn.scheduler.capacity.node-locality-delay 会使 scheduler 尝试等待一段时间以获取本地执行的机会（本地执行就是在数据所在的 node 运行）。

DRF 主要资源 Fairness

默认情况下占用资源主要指内存，如果打开了 DRF，那么在总资源中占比多的将会成为所谓的 DRF，以其在总资源中的占比来评价其所需资源。比如需要集群 6% 的 cpu 和 3% 的内存，那么 cpu 将成为主要资源。

打开 DRF 的方式：

对于capacity scheduler，在 capacity-scheduler.xml 中设置 yarn.scheduler.capacity.resource-calculator 为 org.apache.hadoop.yarn.util.resource.DominantResourceCalculator
对于 fair scheduler，在 allocation 文件里设置顶层元素 defaultQueueSchedulingPolicy 为 drf。