生物信息学linux

SGE作业调度系统的简单理解

2020-01-22  本文已影响0人  熊猫人和熊猫猫

Sun网格引擎(Sun Grid, SGE)是一种来自于 SUN Microsystem的分布式资源管理和调度系统,它用来在基于UNIX的计算环境中优化软件和硬件资源的使用。SGE能用于查找资源池内的闲置资源并利用这些资源(将用户投递的任务进行排队,然后将任务交给能够运行的结算节点执行);它同样用于通常的一些事务中,例如管理和调度作业到可用资源中。当然,作业调度系统的种类有很多,除了SEG,常见的还有Condor、负载共享设施(LSF)、便携式批处理系统(PBS)。

对用户而言,SGE就是一个大系统,提供单个切入点,以访问强大而分散的资源。用户将网格视作单个计算资源。资源管理软件(SGE)接受由用户提交的作业(也就是分析任务),并根据资源管理策略将作业安排在网格内适当的系统上执行。用户可以一次提交数千个作业,而不必考虑他们在何处运行,如此一来简化了用户的使用。

对管理者而言,SGE依据管理者制定的规则,检测网格的所有可用资源后,聚集资源,并在该网格内自动、最优地分配和利用资源。同时提供广泛的工具,用以监控投放的任务。

SGE的工作流程可以分为四步:

1.节点的基本概念

猫毛的理解:一个节点也就相当于一台服务器

主控节点:主控节点是所有集群活动的中心,控制SGE系统组件。一般情况,主控节点也是管理节点和提交节点。
执行节点:执行节点有权限执行作业的系统,执行节点有附加到它上面的队列。
管理节点:管理节点有权运行SGE系统的任何类型的管理操作。
提交节点:提交节点只允许用户提交和控制批处理作业。具体说,用户登陆后,可以使用qsub命令提交作业,使用qstat命令监控作业状态。

了解队列的概念

在SGE中,队列就是存放能在某一节点上运行的所有任务的容器。一个队列从某种方面也决定了所含任务的属性。

队列存在的本质:为任务提供服务
队列存在的意义:(由于SGE允许同时运行多个任务,为了优化资源利用)系统会试着最小负荷的合适队列开始新的任务

2.用户的基本概念

管理人员:管理人员拥有完全操作SGE系统的能力。默认情况,管理主机的超级用户都具有管理人员权限。
操作员:操作员可以执行很多管理人员命令,但是进行配置更改除外。
拥有者:队列拥有者可以暂停或者启动其拥有的队列,还可以暂停或启动其拥有的队列中的作业。队列拥有者没有其他管理权限。
用户:用户有一定的访问权限。

3.资源检索

3.1 qhost -- 显示执行节点的状态信息

qhost查看执行节点的状态信息

其中:

3.2 qconf -- 提供集群配置和队列配置的用户界面

qconf -sel 显示“执行主机”列表
qconf -sh 显示“管理主机”列表
qconf -ss 显示“提交任务主机”列表
qconf -sql 显示“集群队列”列表
qconf -spl 显示“集群并行环境”列表

4. 任务投递

使用qsub进行任务投递时需要添加参数来调整qsub的行为。下面只列几个常用的参数。

参数 默认值 说明
-b 表示运行二进制命令,而非脚本
-cwd 家目录 运行前切换至当前目录。如此一来,stdout 和 stderr 将输出在当前目录
-wd 定义工作目录
-A 当前用户 任务的拥有者
-j n(默认否定) 是否将标准输入和标准输出合并成一个文件
-m 任务结束后,通过哪种方式通知任务拥有者:‘b’ Mail is sent at the beginning of the job; 'e' Mail is sent at the end of the job; 'a' Mail is sent when the job is aborted or rescheduled; 's' Mail is sent when the job is suspended; 'n' No mail is sent.(job开始和终止发送邮件,使用 -m be这种形式)
-M -m 邮件通知时的邮箱
-p 任务的优先级
-r 当操作系统重启后,自动重启任务
-N 任务名
-o stdout 指定标准输出的文件夹
-e stderr 指定标准错误的文件夹
-v 开始任务前设置指定变量
-V 将当前的环境变量传递到执行命令的节点中
-hold_jid eg: -hold_jid 135 在job ID 为135 的任务完成之后运行
-q 指定队列
-l resource=value 请求资源数 eg:-l vf=25G -l h=node1(任务的预估内存为25G,申请在node1上运行)申请内存时尽可能大于真实内存,内存预估偏低的话可能会导致节点跑挂掉
-pe smp eg:-pe smp 5 申请5个线程
-S tcsh 规定作业的shell解释器 -S /bin/bash表示在bash环境下执行命令
4.1 命令行投递
bowtie2 -p 8 -x index/ref -1 data/A_1.fq -2 data/A_2.fq | samtools sort > A.bam | qsub -V -cwd -l vf=25G -S /bin/bash -pe openmpi 8 -N A.bt2

任务解释:使用bowtieA_1.fqA_2.fq和参考基因组比对生成bam文件,然后再使用samtools sort将bam排序获得A.bam
qsub命令解释:申请8个线程并使用openmpi进行运算(同时申请内存25G),这里定义任务名称为 A.bt2

4.2 脚本投递

编辑shell脚本 test.sh,内容如下

#!/bin/bash
#$ -V
#$ -N A.bt2
#$ -pe openmpi 8
#$ -cwd
#$ -l vf=25G
#$ -M xxx@XXX.com
#$ -m be
bowtie2 -p 8 -x index/ref -1 data/A_1.fq -2 data/A_2.fq | samtools sort > A.bam

投递时直接qsub test.sh

5.任务查询 qstat

qstat是一个非常有用的任务查询命令

qstat 查询任务状态

6. 其余几个SGE 常用命令

6.1查看可用节点 qselect

qselect 的语法:qselect [options]
常用参数:
qselect -U 查看指定用户的可用队列节点
qselect -q 查看指定队列有哪些可用节点

6.2 挂起作业使用的命令

6.2.1 qholdqrls
任务被挂起
6.2.2 qmod -sqmod -us

attention: qmod -sqmod -us还可以用于暂停和启动队列,
前提是拥有对应的队列管理权限。

6.3 修改作业属性 qalter

qalter 语法:qalter [参数] 修改内容 jobid
常用参数:
-q :修改指定队列
-l :修改限制资源
-N :修改指定作业名称
-P :修改指定项目名称
这里以修改指定作业名称 qalter -N 举例吧:

目前的作业运行状态
修改jobid204065的作业
qalter -N
修改后的结果:
qalter -N RESULT 204065

6.4 删除作业 qdel

qdel常用的参数:
-f 强制删除
-u 删除指定用户的作业

上一篇 下一篇

猜你喜欢

热点阅读