YARN开启Label Scheduler

2016-10-13 本文已影响1721人 cda766963c7e

Spark Streaming实时长时服务与MapRedue、Spark、Hive等批处理应用共享YARN集群资源。在共享环境中，经常因一个批处理应用占用大量网络资源或者CPU资源导致Spark Streaming资源被抢占，服务不稳定。

该实验在hadoop-2.7.1下操作

创建Label存储目录

为了label的高可用（在ResourceManager重启时候），我们需要为Lalel在HDFS上创建存储目录，用来存储Label元信息。

sudo su hdfs
hadoop fs -mkdir -p /yarn/node-labels
hadoop fs -chown -R yarn:yarn /yarn
hadoop fs -chmod -R 700 /yarn

为YARN配置Node Label

我们需要将下列配置添加到yarn-site.xml

添加下列配置开启Label Scheduler

<property>
  <name>yarn.node-labels.enabled</name>
  <value>true</value>
</property>

添加下列配置，label元数据在hdfs上的存储路径

<property>
  <name>yarn.node-labels.fs-store.root-dir</name>
  <value>hdfs://<host>:<port>/<absolute_path_to_node_label_directory></value>
</property>

添加下列配置，为YARN配置capacity scheduler

label scheduler无法单独使用，而且只能配合capacity scheduler策略使用

<property>
  <name>yarn.resourcemanager.scheduler.class</name>
  <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
</property>

重启ResourceManager

由于我们对yarn-site.xml做了修改，所以我们需要重启ResourceManager让配置生效。

# stop rm
$HADOOP_HOME/sbin/yarn-daemon.sh stop resourcemanager

# start rm
$HADOOP_HOME/sbin/yarn-daemon.sh start resourcemanager

添加Label

sudo su yarn
yarn rmadmin -addToClusterNodeLabels "<label1>(exclusive=<true|false>),<label2>(exclusive=<true|false>)"

NOTE: exclusive并不是必须的参数，默认值为true

集群标签Web UI

你可以通过下列命令来删除集群的Label

yarn rmadmin -removeFromClusterNodeLabels "<label1>,<label2>"

NOTE: 如果某个Label已经关联Queue，那么你无法从集群中将其移除

关联Node Label和Cluster Label

运行下列命令，将节点Label关联到集群Label上。

yarn rmadmin -replaceLabelsOnNode "<node1>:<port>=<label1> <node2>:<port>=<label2>"

NOTE: 节点的Label必须包含在集群的Label中。也就是说我们在上一步中配置的集群Label为节点Label的全集。

如果想为节点删除Label，我们也可以通过replaceLabelsOnNode命令来操作，我们只要将Label参数置为空即可。例如，我们可以通过下列命令来将node-1.example.com节点的Label置空。

sudo su yarn
yarn rmadmin -replaceLabelsOnNode "node-1.example.com"

关联Queue和Node Label

<configuration>
  <!-- 父队列root的相关配置 -->
  <property>
    <name>yarn.scheduler.capacity.root.queues</name>
    <value>x,y</value>
  </property>
  <property>
    <name>yarn.scheduler.capacity.root.accessible-node-labels.a.capacity</name>
    <value>100</value>
    <description>root队列对a标签节点可用的百分比</description>
  </property>

  <!-- 队列x的相关配置 -->
  <property>
    <name>yarn.scheduler.capacity.root.x.capacity</name>
    <value>50</value>
    <description>x队列可用root队列资源的百分比</description>
  </property>
  <property>
    <name>yarn.scheduler.capacity.root.x.maximum-capacity</name>
    <value>100</value>
    <description>x队列资源使用上限</description>
  </property>
  <property>
    <name>yarn.scheduler.capacity.root.x.accessible-node-labels</name>
    <value>a</value>
    <description>x队列应用可用的节点标签</description>
  </property>
  <property>
    <name>yarn.scheduler.capacity.root.x.default-node-label-expression</name>
    <value>a</value>
    <description>x队列应用默认节点标签</description>
  </property>
  <property>
    <name>yarn.scheduler.capacity.root.x.accessible-node-labels.a.capacity</name>
    <description>x队列对a标签节点可用的百分比</description>
    <value>100</value>
  </property>

  <!-- 队列y的相关配置 -->
  <property>
    <name>yarn.scheduler.capacity.root.y.capacity</name>
    <value>50</value>
  </property>

</configuration>

NOTE:
1.获取更多配置
2.如果我们想让某个队列的使用没有标签的节点，那么我们必须将yarn.scheduler.capacity.<queue-path>.accessible-node-labels设置为空格，例如：
<property>
 <name>yarn.scheduler.capacity.root.y.accessible-nod-labels</name>
 <value> </value>
</property>
3.拥有相同父队列的队列的yarn.scheduler.capacity.<queue-path>.capacity之后必须等于100

刷新队列

在配置完capacity-scheduler.xml之后，我们需要刷新下队列，让配置生效。

sudo su yarn
yarn rmadmin -refreshQueues

验证

我们可以启动个spark shell来验证下yarn label scheduler是否正确开启。

bin/spark-shell \
--master yarn \
--deploy-mode client \
--driver-memory 2g \
--executor-memory 1g \
--executor-cores 1 \
--queue x \
--num-executors 2

YARN RUNNING Application Web UI

遇到的问题

Q1:提交任务一直处于ACCEPTED状态

任务处于ACCEPTED状态说明该任务所在的队列没有可用的资源。一开始的时候我忘记配置yarn.scheduler.capacity.root.accessible-node-labels.a.capacity，导致x队列无可用资源。

Q2:小任务饿死

capacity scheduler其实是多队列的FIFO调度，所以存在任务饿死的可能性，又由于我们实验环境采用2.7.1版本的hadoop，无法开启capacity scheduler的资源抢占功能，导致在有大任务运行时，小任务提交无法分配到资源，最终饿死。