手把手教你生信分析平台搭建
宏基因组按:此系列教程为基因学苑的王通老师原创发布。非常适合刚接受生信,又有服务器管理需求的小伙伴做为入门材料,一共20篇文章,内容涉及服务器选购、Linux系统安装、用户管理、软件安装、软件兼容环境、Galaxy/Rstudio服务器配置等多方面。助你快速入行,轻松成为兼职服务器管理员的技术达人。
本文为宏基因组对本系列教程的导读和介绍,方便大家收藏和查阅自己需求的内容。文中蓝字均为链接可阅读详细教程。
作者序:很多读者想学习生物信息分析,而生物信息分析是一项实践性很强的工作,因此我们推出《生物信息分析平台搭建》系列,手把手教你搭建属于自己的生物信息分析系统,为了便于练习,我们将在虚拟机中进行练习,当熟练之后,在逐步上手实体机或云服务器。
VirtualBox是目前免费虚拟机中最好用的软件,兼容性好、稳定、定期更新。是生信入门、无服务器还要数据分析的朋友居家必备软件。点击标题蓝字阅读原文,查立阅此软件下载、安装的详细图文教程。
在VirtualBox软件中,在Ubuntu为例,从加载系统光盘镜像,到完成安装进入图形桌面,13步带你进入真正的Linux世界。
主要内容包括重置root帐号密码(先拿下管理员权限)、网络设置、系统设置、锁屏时间、语言选择、系统与软件更新等常用操作。
系统配置好,如何访问电脑里的文件,开始学习使用和分析数据,设置共享目录难住了很多人,这里有详细的图文教程。
Terminal下调试命令和代码,文本编辑神器Vim的安装和配置不可少;加速软件下载,修改软件源为国内镜像;配置环境变量、命令缩写等才是有B格的攻城狮。
主要内容配置远程登陆openssh、java、python和Perl模块、R语言、常用生信软件等。可命令行,也可图形界面。
bioconda来源于conda,conda是一个软件模块管理工具,也是一个可执行命令,其核心功能是包管理与环境管理,可以用来管理Python, R, Ruby, Lua, Scala, Java, JavaScript, C/ C++, FORTRAN等语言的模块。在python中使用比较多,有点类似于pip工具。有了它让你轻松解决各软件依赖不同版本包的问题。
Ubuntu里也有图形界面、鼠标点选的软件安装方式,不喜欢敲代码的朋友不要错过(反正我是不用)。
随着测序数据的大量产出,数据传输成为行业发展瓶颈。不过“车到山前必有路”,Asprea是一种高效的数据传输解决方案,可以快速在网络间传输数据,速度超属你的想象(可能比较占用网络资源,我们单位用不了)。
Rstudio是我最喜欢使用开发环境,支持Shell、R、Markdown等多种语言。如果有服务器,安装Rstudio-server软件,大家一起用;本地只要能上网,就可以轻松用服务器工作了,非常方便。
如果不使用虚拟机,而是直接将Linux安装到实体机上,就需要一个启动盘,优盘是最方便的,不过目前流行的方式是下载系统的ISO文件,然后制作U盘启动。这里我们利用UltralISO这款工具制作,制作Ubuntu启动盘,同理,windows系统,CentOS系统都是同样的步奏。
当存储用满之后,需要添加新的磁盘,这里我们利用虚拟机演示如何添加一块磁盘,实体机中类似的操作。新添加一块磁盘之后,并不能马上使用,还需要分区与格式化为固定文件系统才能使用。
服务器牌默认是不安装桌面的,需要手动安装。如果不喜欢Ubuntu 17.10之前的Unity桌面,其实可以自己安装新的桌面。比如GNOME桌面,KDE桌面等,如果后面比较熟悉命令行了,其实不需要桌面环境也行,这样可以节约计算资源。
服务器与普通PC一个最大的特点就是,PC是个人电脑,而服务器对外服务,因此,服务器支持多账户多任务。也就是同一时间可以多个账户同时登陆,同时使用系统。这就需要严格的用户管理机制。
主要内容有添加用户、创建组、修改密码,修改组信息,设置工作目录、锁定和删除账号。
经常有人问我自己的个人电脑是否能用来分析,有些配置已经很高,内存可以达到16G。其实服务器并不是一个配置更好的个人电脑,它与普通电脑之间有很多差别,其中最大的一点不同我想应该是服务器使用RAID。
如果不喜欢Ubuntu,也可以选择使用CentOS,这是目前比较流行的另一个Linux版本。当然不差钱的企业可以选择更优秀的Reahat或者SUSE Linux等,喜欢折腾的还可以选择Linux mint发行版,或者国产比较优秀的Deepin Linux。其实,争论哪个版本更优秀没有意义,别纠结,你的技能好坏与使用哪个版本关系不大,通常来说CentOS更适合服务器使用,作为个人电脑来使用,还是Ubuntu更好些。
熟悉完虚拟机配置服务器之后,就可以尝试上手搭建实体服务器了,如果要选购服务器,应该考虑哪些因素呢?如果不差钱,那就好办了,直接选最贵的就好了。在预算有限的条件下。CPU,内存,硬盘如何取舍,达到最佳性能,是否需要购买UPS,显卡是否有必要?这些问题,我们一文解决这些疑问。
确定好服务器配置之后,还有很多事情需要选择,包括购买哪种类型的服务器,自己DIY,塔式服务器,机架式服务器,计算集群还是云服务器等,那么众多的选择中哪款才是适合自己的呢,这里我们一一道来。
如果不喜欢命令行,可以提供一个图形化的数据分析界面,Galaxy就是这样一个生物信息分析的图形化框架,可以进行个性化设置,安装到服务器端对外提供服务。
本文主要内容包括上面教程中有人会因为各种原因,出现非预期的问题,这里统一答疑。如virtual安装失败、共享不成功、桌面无法安装、缺少依赖失败、命令不存在以及常见解决思路。
手把手教你生物信息分析平台搭建系列专栏到这里就全部结束了,可能一次很难照着文章完成所有的操作,这很正常,需要多操作几次。由于每个人的情况都不同,可能会出现各种各样的问题,不过不要害怕,每解决一个问题,技能就提升一步。
原创: 宏基因组 宏基因组