SGE 集群搭建
1、一键式搭建
python3 -m pip install paramiko
python3 installer.py setup
python3 installer.py installmaster SGE_Workstation 192.168.36.94
python3 installer.py addqueue all.q @allhosts SGE_Workstation
python3 installer.py startsge [restartsge]
## 创建好master后,再添加计算节点
mkdir /home/sge_user [node1]
python3 installer.py addexecd mb.q 192.168.36.114 node1 rootpassword
## 配置共享目录文件
#systemctl stop firewalld.service
# service rpcbind restart
# service nfs restart
# vim /etc/exports
#exportfs -rv
master: /opt 192.168.0.25(rw,insecure,no_all_squash,no_root_squash,sync) /opt
node1: mount -t nfs server:/opt/ /opt
#vi /etc/rc.d/rc.local 开机启动
强制断开 umount -fl /opt
2、配置节点信息
qconf -mq all.q
slots 1,[hostname1=3],[houstname2=5]
3、添加并行环境
qconf -ap threaded/orte
qconf -mq all.q/mb.q {pe_list make smp mpi orte threaded}
make smp mpi orte threaded
4、修改优先级
(root)qalter -p +1000 <JobID>
qstat -pri -u \*
5、修改IP /etc/hosts
192.168.36.94 SGE_Workstation
配置执行主机
qconf -ae hostname添加执行主机
qconf -de hostname删除执行主机
qconf -sel显示执行主机列表
配置管理主机
qconf -ah hostname添加管理主机
qconf -dh hostname删除管理主机
qconf -sh显示管理主机列表
配置提交主机
qconf -ss
qconf -as hostname添加提交主机
qconf -ds hostname删除提交主机
qconf -ss显示提交主机列表
配置队列
qconf -aq queuename添加集群队列
qconf -dq queuename删除集群队列
qconf -mq queuename修改集群队列配置
qconf -sq queuename显示集群队列配置
qconf -sql显示集群队列列表
配置用户组
qconf -ahgrp groupname添加用户组
qconf -mhgrp groupname修改用户组成员
qconf -shgrp groupname显示用户组成员
清除 E 状态
qmod -c all.q