转录组入门（1）：计算机及软件安装

2017-07-20 本文已影响766人 lxmic

作业要求

最好是有mac或者linux系统，8G+的内存，500G的存储即可。需要安装的软件包括 sratoolkit,fastqc,hisats,samtools,htseq-count,R,Rstudio
来源于生信技能树：http://www.biotrainee.com/forum.php?mod=viewthread&tid=1750#lastpost

计算机资源的准备

需要Linux系统：只能选择Ubuntu 16.04 LTS ，这个版本是长期支持的，而且是开源系统，并且有很好的GUI，很适合菜鸟入门的系统。
8G内存：没有钱换新的电脑，只能把手头2009年至今的y450改装升级一下。原本只有2G内存，我全部卸下，在某宝购买了两根DRR3 1600 16芯的4G的内存条，我的小y已经是极限了，升级到8G的内存。
存储500G：本来的小y只有320G的西数HDD 5200转的硬盘，读取速度和开机速度均不行，我就索性将HDD换成了120G的特科芯的SSD（也是在某宝购买的），然后在光驱位买了一个1T的希捷的5200转的HDD，容量问题解决了。
内存：因为要跑比较大的数据，我就索性将CPU也升级一下吧，当然还是在某宝购买的，我原来的是T4200，实在是吃不消了，我就度娘了一下，结果很多人都推荐换成P9600，性能提升很多，而且发热比T9600少很多，所以内存也差不多了，已经是极限了。显卡我是没有办法了，因为被焊死在主板上了。
到此计算机资源算是勉强可以了，好像真的是有点惨，说到底就是科研狗比较惨，缺钱，要不然，我早就买苹果电脑了，哪来那么多的事情呢。能够做到这种程度，还是挺佩服我自己的哈。

以下软件安装的内容，是参考简书作者hoptop的内容进行，在此进行说明。因为自己是完全新手入门，很多东西没有办法很快入门，作者的内容对我的帮助非常大，感谢。当然在这过程中，自己也是折腾了很久，有些地方采用了自己的方法，对于植物学的实验者来说，真是不容易呢。

软件的安装

在这之前，我们需要替换Ubuntu的镜像源，方法如下（参考链接）：

# 备份源列表文件并将默认镜像源改为清华镜像源
$ perl -pi.bak -e  's/cn.archive.ubuntu.com/mirrors.ustc.edu.cn/g' /etc/apt/source.list
$ perl -pi -e 's/http/https/g' /etc/apt/source.list
$ perl -pi -e 's/security.ubuntu.com/mirrors.ustc.edu.cn/g' /etc/apt/source.list
# 更新升级索引
$ sudo apt-get update 
$ sudo apt-get upgrade
# 创建软件下载目录src和软件目录biosoft（也是从别人那里学来的，我也就这么常规的干了）
$ cd && mkdir src && mkdir biosoft

1.SRA Toolkit

官网：https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

$ cd ~/src
# 选择适合自己系统的软件，这里选择的是Ubuntu版本。
$ wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2-1/sratoolkit.2.8.2-1-ubuntu64.tar.gz
# 解压并将解压后的文件剪切到biosoft目录下
$ tar -zxvf  sratoolkit.2.8.2-1-ubuntu64.tar.gz && mv  sratoolkit.2.8.2-1-ubuntu64 ~/biosoft
# vim编辑器直接编辑~/.bashrc文件，将该软件加入环境变量中，可以全局运行，不用在运行的时候切换到当前目录
$ vim ~/.bashrc
# 在文件最后增加如下内容
PATH=$PATH:~/biosoft/sratoolkit.2.8.2-1-ubuntu64/bin
# 更新
$ source ~/.bashrc
# 尝试运行软件，出现帮助信息，就说明成功安装
$ fastq-dump -h

功能：能够将下载的SRA格式的测序结果转换成fastq格式，便于下一步的测序数据质控。
参考中文说明：http://blog.sina.com.cn/s/blog_8034ba040101e7ru.html
官方详细文档：https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc

2.Fastqc

官网：http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
因为fastqc运行需要Java环境，所以在安装之前需要检测一下Java环境

# 看是否安装了Java
$ java -version
# 若不存在，则进行安装，但是Java的版本要适合。我在装了Java9之后，fastqc没法正常运行，之后降到8版本之后，就能正常运行。
$ sudo apt-get install openjdk-8-jdk

$ cd ~/src
# 下载二进制包，对自己Linux有信心的同志，可以下载源码包，自己编译
$ wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip
$ unzip fastqc_v0.11.5.zip && mv FastQC ~/biosoft
$ vim ~/.bashrc
# 加入环境变量
PATH=$PATH:~/biosoft/FastQC
$ source ~/.bashrc
# 测试软件，出现帮助信息
$ fastqc -h

功能：可视化测序结果质量的软件
中文教程：https://www.plob.org/article/5987.html

3.HISAT2

官网：http://ccb.jhu.edu/software/hisat2/index.shtml

$ cd ~/src
# 直接下载二进制包，免去自己进行编译安装
$ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip
$ unzip hisat2-2.1.0-Linux_x86_64.zip && mv hisat2-2.1.0 ~/biosoft
# 添加环境变量
$ vim ~/.bashrc
PATH=$PATH:~/biosoft/hisat2-2.1.0
$ source ~/.bashrc
# 测试软件
$ hisat2 -h

功能：将RNA-Seq的结果比对到基因组。
使用：http://bioinformatics.xtbg.ac.cn/hello-world-2/
官方使用手册：http://ccb.jhu.edu/software/hisat2/manual.shtml

4.HTSeq

网站：http://samtools.sourceforge.net/

# 首先安装pip
$ sudo apt-get install python-pip
$ pip install HTSeq
# 直接安装完成，测试
$ python
>>> import HTSeq
# 如果没有出现报错信息，说明能够正常使用

功能：用来计数多种mapping软件输出文件reads
使用说明：http://www.dengfeilong.com/post/htseq-count.html

5.SAMtools

网站：http://samtools.sourceforge.net/

$ cd ~/src
$ sudo apt-get libz-dev libbz2-dev liblzma-dev libssl-dev
# 环境要求：Samtools requires the zlib library <http://zlib.net>, the bzip2
library <http://bzip.org/>, liblzma <http://tukaani.org/xz/> and (optionally)
a curses or GNU ncurses library <http://www.gnu.org/software/ncurses/>
## zlib安装
$ wget http://zlib.net/zlib-1.2.11.tar.gz
$ tar -zxvf zlib-1.2.11.tar.gz && cd zlib-1.2.11 
$ ./configure && make && make install
## bzip
$ wget  http://bzip.org/1.0.6/bzip2-1.0.6.tar.gz
$ tar -zxvf bzip2-1.0.6 && cd bzip2-1.0.6
$ ./configure && make && make install
## curses(编译过程可能会出错，忘记解决了，总之是百度)
$ wget ftp://ftp.gnu.org/gnu/ncurses/ncurses-6.0.tar.gz
$ tar -zxvf ncurses-6.0.tar.gz && cd ncurses-6.0
$ ./configure && make && make install
# htslib（可能编译过程中，libbz2.a出现问题，需要删除，然后进入zlib目录，make clean，再重新编译）
$ git clone git://github.com/samtools/htslib.git
$ cd htslib
$ ./configure && make && make install
# samtools（编译老是出问题，总是要靠度娘）
$ git clone git://github.com/samtool/samtools.git
$ cd samtools
$ ./configure && make && make install
# bcftools
$ git clone git://github.com/samtools/bcftools.git
$ cd bcftools
$ ./configure && make && make install
## 测试
$ samtools --help

功能：生成存放高通量测序比对结果及其他转换格式，融合文件
参考网站：http://www.cnblogs.com/freemao/p/3763498.html

6.R

R：https://www.r-project.org/

# 添加README文档说的镜像源到source.list，这里我选择中国科技大学的。
$ vim /etc/apt/source.list
deb https://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu xenial/
deb https://mirrors.ustc.edu.cn/ubuntu/ xenial-backports main restricted universe
# 还有需要添加密钥到电脑，secure APT
$ sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys E084DAB9
$ sudo apt-get update
$ sudo apt-get install r-base
$ sudo apt-get install r-base-dev
# 测试
$ R
# 会出现r的开启提示语
## 这里还有个额外的工作，提高安装R包速度，要在家目录下新建.Rprofile，添加如下内容
$ vim ~/.Rprofile
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")

功能：统计分析
使用手册：https://www.w3cschool.cn/r/

7.Rstudio

官网：https://www.rstudio.com/

# 桌面版本Ubuntu，使用Rstudio比较方便
$ cd ~/src
$ wget https://download1.rstudio.org/rstudio-1.0.143-amd64.deb
# 安装，也可以直接点击deb包，直接可以安装，不用命令行也方便
$ dpkg -i rstudio-1.0.143-amd64.deb

8.感想

这是第一次用简书的markdown来写笔记，而且是带有代码的，一次崭新的开始。因为这一篇是后面补上的，刚开始的时候没有特别察觉到做笔记这件事，后来觉得还是有必要的，因此我就开始补起来，而且因为不是边做实验边进行记录，所以代码还要自己重新敲，重新确认能否使用，真是折腾死了。痛不欲生啊，尤其是需要编译软件的时候，那是真的需要耐心，不然是真的会疯掉的，总是会出错，一个接着一个的出错。不管怎么样，第一步算是成功的迈开了，接下来还是需要记录一下代码，及时整理。