转录组学习一(软件安装)
转录组学习一(软件安装)
转录组学习二(数据下载)
转录组学习三(数据质控)
转录组学习四(参考基因组及gtf注释探究)
转录组学习五(reads的比对与samtools排序)
转录组学习六(reads计数与标准化)
转录组学习七(差异基因分析)
转录组学习八(功能富集分析)
开篇:2017/10/7正式开始生信技能树论坛里的转录组入门从Linux下软件的安装 到 差异表达基因的功能注释及功能分析相关。
转录组相关软件的安装
任务
- 本地Windows电脑及服务器Linux系统下安装此次入门学习的各类软件及简单了解软件的基本用法:包括:sratoolkit, fastqc,Trimmomatic, hisat2, samtools, bcftools, htseq-count, R, Rstudio
- windws下的一些基础编程工具如:git, notepad++, ...
<font color =orange>环境变量</font>
软件安装,首先最重要的问题就是Linux操作系统的环境变量。这问题真的是有些有些小坑,记得当时反复看了几篇文章+实际操作安装几次软件下才清楚了环境变量的概念。后来再在Windows的dos操作时就瞬间明白这种东西都是通用的概念。主要参考文章Linux学习-环境变量和可执行属性,群体基因组(二)
环境变量:首先要明白,Linux操作系统执行如ls/cd/mkdir这类的命令实际是系统从内置的文件目录下调用这些ls/cd/mkdir的程序文件然后执行。而这系统内置的文件目录就是环境变量。环境变量就是告诉电脑操作系统几个目录,这几个目录下存储着可执行的文件。
系统中环境变量的名字是PATH, 可通过echo $PATH 显示系统环境变量的目录。
加入临时变量 命令:export PATH=$PATH: ~~~~~~~~; 而加入永久变量可以通过将上述export命令加入到~/.bashrc文件里。如 echo 'PATH=$PATH:~/biosoft/samtools/bin' >> ~/.bashrc ,然后再source ~/.bashrc即可
<font color = orange>sratoolkit</font>
- 功能:sratookit主要功能现阶段主要还是把 NCBI的SRA数据库中的NGS原始测序数据 从sra格式转换到fastq格式,从而进行下一步的操作。 其他的还有prefetch 功能直接根据编号下载SRA数据
- 官方主页:NCBI SRA Toolkit
- 其他文档说明:SRA_TOOLKIT documents
- 具体安装:
mkdir bio_soft && cd bio_soft
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2-1/sratoolkit.2.8.2-1-centos_linux64.tar.gz ### 选择不同系统下的版本,一般服务器的Linux版本为centos。
tar -zxvf sratoolkit.2.8.2-1-centos_linux64.tar.gz
echo ' PATH=$PATH:~/bio_soft/sratoolkit.2.8.2-1-centos_linux64.tar.gz/bin' >> ~/.bashrc ###添加到环境变量
source ~/.bashrc ##是环境变量生效
###以下为测试一下,和preftch -c
prefetch -v ##测试版本号
preftch -c SRR390728 ##速度有点慢,会默认下载到家目录的ncbi/public/sra文件夹下。
<font color = orange>samtools</font>
- 功能:处理SAM,BAM文件的工具软件合集。其中BAM是二进制的文件格式占用空间小,在高通量测序的数据处理中极为重要。
- 官方主页:主页
- 其他文档说明:OA_maque博客介绍 | 寂寞先生_SAMTOOLS常用命令详解 | SAMtools和BCFtools工具详解
- 具体安装:
cd bio_soft
wget https://github.com/samtools/samtools/releases/download/1.6/samtools-1.6.tar.bz2
tar -jxvf samtools-1.6.tar.bz2
cd samtools-1.6
./configure ### 软件的编译过程。
make ###编译结束会发现samtools程序,把这个软件程序移到环境变量文件夹下及可以使用。
<font color = orange>利用Conda来安装软件</font>
ps. 自己装软件,真的是会遇到各种麻烦。软件编译啊,版本不对啊,软件安装得依赖于各种奇奇怪怪的前置包,有的软件就是死活装不上。装的时候就在想,如果Linux下有类似Windows的360软件管家这种东西该多好,直接一键安装,然后就能直接使用。也不必浪费时间在装软件这种事情上面了。结果后来看文章:还真的是有!这神器就是conda。
- CONDA介绍:Conda是一种通用包管理系统,旨在构建和管理任何语言的任何类型的软件。通常与Anaconda和Miniconda一起分发。Anaconda囊括了100多个常用的Python包,一键式安装,解决Python包安装的痛苦。但后来发现,其还有更多的功能,尤其是其增加了bionconda频道后,生物信息分析的1500多个软件都可以一键安装了,免去了编译时间浪费和解决库文件安装的问题。简单来说,就是一键安装生物信息软件,还能日后更新,另外,还有一个重要的工作环境概念,可以简单的配置不同Python版本的环境、不同Python包的环境、不同R环境和R包的环境。
- 下载:下载Anaconda或者miniconda。miniconda是一个简化版本,保留了一些核心的功能,对于生信安装软件来说,miniconda已经足够,如果日后再出现什么问题,那就再重新装Anaconda再说吧
wget https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh ## 下载
- 安装:输入命令
bash Miniconda3-latest-Linux-x86_64.sh
然后就是一路回车加输入yes,最后有一个将miniconda目录输入到环境变量~/.bashrc中,输入yes,还未完成,最后输入命令 source ~/.bashrc 使环境变量文件生效,大功告成。
- 添加channels频道:重要的就是bioconda环境还有清华的镜像,里面包含几乎所有常用的生信软件。
conda config --add channels r
conda config --add channels defaults
conda config --add channels conda-forge
conda config --add channels bioconda
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
conda install -c bioconda multiqc
- 软件搜索:看你要的生信软件是否有,以samtools为例
conda search samtools
- 软件安装:
conda install samtools
conda install samtools=(版本号)
- 其他目前常用的一些conda命令:
conda config --get channels ## 查看已添加的channels
conda config --remove channels ~~~ ##删除频道
conda update conda ## 更新conda软件
conda remove 软件名 ## 删除指定软件
conda update 软件名 ## 更新指定软件
conda list ## 查看已经安装软件
conda config --remove channels ~~~
source activate python=2.7
source deactivate
- 还有重要的创建不同软件的运行环境,可以运行不同软件的多个版本。具体操作参考Linux学习 - 又双叒叕一个软件安装方法
<font color = orange>fastqc</font>
- 功能:对测序结果进行可视化展示,二代测序数据质量分析软件
- 官方主页: 主页
- 其他的重要参考博客文章测序分析——使用 FastQC 做质控
- 安装:有了conda就很简单了
conda install fastqc
<font color = orange>Trimmomatic</font>
- 功能:对测序数据的raw reads进行剪切和过滤
- 官网 :Trimmomatic
- 相关介绍网站 铁汉1990博客另一篇博客
conda install trimmomatic
<font color = orange>hisat2</font>
- 功能:将测序结果比对到基因组上,通常是对有参转录组进行的比对。HISAT2是TopHat2/Bowti2的继任者,使用改进的BWT算法,实现了更快的速度和更少的资源占用,作者推荐TopHat2/Bowti2和HISAT的用户转换到HISAT2。
- 官网:官网地址
- 其他相关网站:PloB 博客
conda install hisat2
### 基本命令
trimmomatic-0.35.jar PE -phred33 input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
<font color = orange>HTseq</font>
- 功能: 一款用于reads计数的软件,他能对位于基因组上的一些单位的reads数进行统计,这里所说的单位主要是指染色体上的一组位置区间(我们常见的就是gene exon
- 相关介绍中文相关介绍:Bluesky's blog
OA_maque
conda install htseq ##会有一些其他依赖的软件,默认安装就好
<font color = orange>R及 R studio</font>
对于目前还不是很懂的R语言来说,日后得熟悉基本语法,主攻R语言的画图功能。
R和R studio直接在Windows电脑上安装就好。其中基于R软件的一些转录组差异表达矩阵分析的包:如 ballgown, sleuth, ggplot2等等,需要安装Bioconductor,也是类似的一键安装生物信息软件的程序。