生物信息学Rna-seq数据分析流程小白生信入门

转录组学习一(软件安装)

2018-01-17  本文已影响185人  Dawn_WangTP

转录组学习一(软件安装)
转录组学习二(数据下载)
转录组学习三(数据质控)
转录组学习四(参考基因组及gtf注释探究)
转录组学习五(reads的比对与samtools排序)
转录组学习六(reads计数与标准化)
转录组学习七(差异基因分析)
转录组学习八(功能富集分析)

开篇:2017/10/7正式开始生信技能树论坛里的转录组入门从Linux下软件的安装 到 差异表达基因的功能注释及功能分析相关。

转录组相关软件的安装

任务

  1. 本地Windows电脑及服务器Linux系统下安装此次入门学习的各类软件及简单了解软件的基本用法:包括:sratoolkit, fastqc,Trimmomatic, hisat2, samtools, bcftools, htseq-count, R, Rstudio
  2. windws下的一些基础编程工具如:git, notepad++, ...

<font color =orange>环境变量</font>

软件安装,首先最重要的问题就是Linux操作系统的环境变量。这问题真的是有些有些小坑,记得当时反复看了几篇文章+实际操作安装几次软件下才清楚了环境变量的概念。后来再在Windows的dos操作时就瞬间明白这种东西都是通用的概念。主要参考文章Linux学习-环境变量和可执行属性群体基因组(二)

环境变量:首先要明白,Linux操作系统执行如ls/cd/mkdir这类的命令实际是系统从内置的文件目录下调用这些ls/cd/mkdir的程序文件然后执行。而这系统内置的文件目录就是环境变量。环境变量就是告诉电脑操作系统几个目录,这几个目录下存储着可执行的文件。
系统中环境变量的名字是PATH, 可通过echo $PATH 显示系统环境变量的目录。
加入临时变量 命令:export PATH=$PATH: ~~~~~~~~; 而加入永久变量可以通过将上述export命令加入到~/.bashrc文件里。如 echo 'PATH=$PATH:~/biosoft/samtools/bin' >> ~/.bashrc ,然后再source ~/.bashrc即可

<font color = orange>sratoolkit</font>

mkdir bio_soft && cd bio_soft
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2-1/sratoolkit.2.8.2-1-centos_linux64.tar.gz ### 选择不同系统下的版本,一般服务器的Linux版本为centos。
tar -zxvf sratoolkit.2.8.2-1-centos_linux64.tar.gz

echo ' PATH=$PATH:~/bio_soft/sratoolkit.2.8.2-1-centos_linux64.tar.gz/bin' >> ~/.bashrc  ###添加到环境变量
source ~/.bashrc ##是环境变量生效
###以下为测试一下,和preftch -c
prefetch -v ##测试版本号
preftch -c SRR390728 ##速度有点慢,会默认下载到家目录的ncbi/public/sra文件夹下。

<font color = orange>samtools</font>

cd bio_soft
wget https://github.com/samtools/samtools/releases/download/1.6/samtools-1.6.tar.bz2
tar -jxvf samtools-1.6.tar.bz2
cd samtools-1.6
./configure ### 软件的编译过程。
make ###编译结束会发现samtools程序,把这个软件程序移到环境变量文件夹下及可以使用。

<font color = orange>利用Conda来安装软件</font>

ps. 自己装软件,真的是会遇到各种麻烦。软件编译啊,版本不对啊,软件安装得依赖于各种奇奇怪怪的前置包,有的软件就是死活装不上。装的时候就在想,如果Linux下有类似Windows的360软件管家这种东西该多好,直接一键安装,然后就能直接使用。也不必浪费时间在装软件这种事情上面了。结果后来看文章:还真的是有!这神器就是conda。

参考文章,博客青山屋主_知乎生信软件的好帮手-biocondaLinux学习 - 又双叒叕一个软件安装方法

wget https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh ## 下载
bash Miniconda3-latest-Linux-x86_64.sh

然后就是一路回车加输入yes,最后有一个将miniconda目录输入到环境变量~/.bashrc中,输入yes,还未完成,最后输入命令 source ~/.bashrc 使环境变量文件生效,大功告成。

conda config --add channels r
conda config --add channels defaults
conda config --add channels conda-forge
conda config --add channels bioconda 
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
conda install -c bioconda multiqc
conda search samtools
conda install samtools
conda install samtools=(版本号)
conda config --get channels ## 查看已添加的channels
conda config --remove channels ~~~ ##删除频道
conda update conda ## 更新conda软件
conda remove 软件名 ## 删除指定软件
conda update 软件名 ## 更新指定软件
conda list ## 查看已经安装软件
conda config --remove channels ~~~

source activate python=2.7
source deactivate

<font color = orange>fastqc</font>

conda install fastqc

<font color = orange>Trimmomatic</font>

conda install trimmomatic

<font color = orange>hisat2</font>

conda install hisat2
### 基本命令
trimmomatic-0.35.jar PE -phred33 input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36


<font color = orange>HTseq</font>

conda install htseq ##会有一些其他依赖的软件,默认安装就好

<font color = orange>R及 R studio</font>

对于目前还不是很懂的R语言来说,日后得熟悉基本语法,主攻R语言的画图功能。
R和R studio直接在Windows电脑上安装就好。其中基于R软件的一些转录组差异表达矩阵分析的包:如 ballgown, sleuth, ggplot2等等,需要安装Bioconductor,也是类似的一键安装生物信息软件的程序。

上一篇下一篇

猜你喜欢

热点阅读