【bioHPC-1】用Vagrant创建虚拟集群

2017-08-24  本文已影响81人  Rapp

高性能计算(High Performance Computing,HPC)集群, 简称集群,是将多个计算机节点用高速网络相连,通过统一调度计算资源和计算任务,从而实现大规模的并行计算。为了应对大数据的挑战,我们必须要熟悉HPC的使用,并掌握编写并行程序的技巧。从今天起,Rapp将推出【bioHPC】系列文章,和大家分享如何开发基于高性能计算集群的生物信息学分析流程。

HPC.jpg

我开发的bioHPC将会努力做到以下几点:

  1. 自动化运行(从raw data到work report,只需一行命令就能搞定)
  2. 可重复性(精确的版本控制,确保任何结果都可以重复)
  3. 可迁移性(分析流程可以快速迁移到不同的计算平台)
  4. 可扩展性(充分利用HPC的计算资源,实现成百上千个样本并行计算的能力)
  5. 可读性(代码简洁易懂,便于二次开发)

虽然HPC的应用已经十分广泛,但是对于普通用户来说,能够在真正的集群上运行自己编写的程序还是比较困难。就算有集群账户,如果不是管理员,很多软件安装和系统配置的任务也无法完成。为了方便学习和测试,我决定用虚拟机在自己的电脑上创建一个虚拟集群,虽然CPU和内存会受到一些限制,但是对于学习和测试来说,已经够用了。等熟练掌握后,就可以到真实的环境中一显身手了。

Rapp曾经介绍过如何安装VirtualBox(如何在3分钟内打造一个完美的R工作平台)。当时使用的虚拟机是单机桌面版,这次我们要一次安装多个虚拟机,而且不需要进入图形界面。

我们借助的工具就是Vagrant,它可以使虚拟机的安装更加方便。难点主要在如何修改Vagrantfile中的配置。有不明白的地方可以查看Vagrant的官方文档

在创建虚拟集群的时候,我们需要在每个虚拟机上分别安装所需要的软件(如SGE)并修改一些配置信息,这个过程并不需要手工完成,可以通过Vagrant 的 provision 功能来批量实现。

不了解Vagrant的读者可以从Github上下载我写的源代码(vSGE),直接使用我写的Vagrantfile。我配置了1个master节点和5个worker节点,每个节点有2个CPU和2G内存。

创建虚拟集群分以下几个步骤:

  1. 安装 Vagrant 和 VirtualBox
    具体方法见Vagrant和VirtualBox的官网
    https://www.vagrantup.com/downloads.html

    vagrant.png
    https://www.virtualbox.org/wiki/Downloads
    virtualbox.png
  2. 从我的Github上下载源代码(vSGE)
    可以用git clone命令,或者点击网页上的Clone or download 按钮,再点击Download ZIP

git clone https://github.com/bioxfu/vSGE
vsge.png
  1. 运行
    这一步比较耗时间,建议你起来活动一下,喝杯咖啡:)
cd vSGE
vagrant up
  1. 测试
vagrant ssh master
for i in `seq 1 30`; do qsub -b y -o /vagrant/out.txt -e /vagrant/err.txt "bash /vagrant/test.sh"; done
qsub.png
qstat命令查看任务运行状态:
qstat -f
qstat.png

可以看到每个节点都被分配了6个任务。

qstat -f
qstat2.png

此时,任务已全部完成。

接下来,在本地系统的当前目录下(vSGE)查看输出文件:

out.png

测试成功!

虚拟集群已经成功创建完毕,我们离bioHPC的目标又前进了一小步。预知后事如何,且听下回分解。

qrcode.jpg
上一篇下一篇

猜你喜欢

热点阅读