生信分析velet拼接二代测序

基因组从头组装软件

2018-12-21  本文已影响0人  Lillian李李安

从头组装- de novo assembly

指在不需要任何参考序列的情况下对某一物种进行基因组测序,然后将测得的序列进行拼接、组装,从而绘制该物种的全基因组序列图谱。

常用拼接算法:
基本步骤:
  1. 将reads打断成长度为K的核酸片段,再用Kmer间 的overlap关系构建DBG;
  2. 寻找最优路径(经过每个节点且仅经过一次), 最优路径对应的碱基序列构成一个contig;
  3. 通过PE reads 位置信息确定 contig之间的相对位置和方向,组装contig,填充contig之间的gap,得到 scaffold序列
常用短序列拼接软件:

(一)SPAdes:

主要用于基因组拼接,也可用于一、二、三代测序的混合组装;还可用于转录组从头组装(rnaSPAdes)和宏基因组拼接(metaSPAdes)


  1. 需要先按照Python:
    Anaconda是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda利用工具/命令conda来进行package和environment的管理,并且已经包含了Python和相关的配套工具。
    conda 是开源包(packages)和虚拟环境(environment)的管理系统。

1>. wget https://repo.anaconda.com/archive/Anaconda3-5.2.0-Linux-x86_64.sh

2>. sudo sh ~/Biosofts/Anaconda3-5.2.0-Linux-x86_64.sh
(这里是已经将下载的Anaconda3-5.2.0-Linux-x86_64.sh移到了这个目录下,所以路径会有不同,注意一下)

3>. 输入第二个命令后会进入到会看到提示“In order to continue the installation process, please review the license agreement.”(“请浏览许可证协议以便继续安装。”),点击“Enter”查看“许可证协议”。

4>.在“许可证协议”界面将屏幕滚动至底,输入“yes”表示同意许可证协议内容。然后进行下一步。

5>. 安装过程中,提示:“Press Enter to confirm the location, Press CTRL-C to cancel the installation or specify an alternate installation directory”(按回车键确认安装路径,按'CTRL-C'取消安装或者指定安装目录)

6>. 当出现“Do you wish the installer to prepend the Anaconda install location to PATH in your /home/<user>/.bash_profile ”(你希望安装器添加Anaconda安装路径在/home/<user>/.bash_profile文件中吗?)
输入“yes”后,路径/home/<user>/.bash_profile中“<user>”即进入到家目录后你的目录名。如果输入no后,则需要自己添加路径。

在这里我选择的是no,所以需要自己添加路径
7>. 添加路径:nano ~/.bashrc  末尾加入:  export PATH=/root/anaconda3/bin:$PATH
或者 直接echo 'export PATH=/root/anaconda3/bin:$PATH' >>~/.bashrc

8>. 使其生效:source ~/.bashrc

9>. 检查是否成功:conda --version(出现conda的版本的时候即成功)也可以输入conda list检查。


  1. 安装SPAdes
1. 下载安装包:wget http://cab.spbu.ru/files/release3.12.0/SPAdes-3.12.0-Linux.tar.gz
2. 建立相应目录:mkdir ~/Biosofts/spades
3. 解压缩:tar zvxf /media/sf_Linux/Biosoft/SPAdes-3.12.0-Linux.tar.gz -C ~/Biosofts/spades/
 ~/Biosofts/SPAdes-3.12.0-Linux/bin/spades.py -h
 echo ‘export PATH=~/Biosofts/SPAdes-3.12.0-Linux/bin:$PATH' >>
~/.bashrc
 source ~/.bashrc
 spades.py -h
  1. 运行SPAdes
    (1)简介:

拼接基因组有可能有多种数据:每种都不太一样

(二)Velvet

  1. 使用步骤:
  1. 安装:
    sudo apt-get install velvet
  2. 结果解释:
    contigs.fa 即为我们最终需要的拼接结果文件,长度2倍长于kmer的
    contigs。参数-scaffolding决定生成的该fasta文件是否包含scaffold序
    列。
    stats.txt 用于决定覆盖度cutoff的统计表
    PreGraph 初始的de vruijin图
    Graph2 最终的de bruijin图 关于该文件中内容的解释,请见velvet
    PDF manual。
    velvet_asm.afg AMOS兼容的组装文件,能用于AMOS基因组组装软
    件包
    Log velvet的运行记录。
序列拼接评价软件
(一)QUAST
  1. 安装:
    下载: wegt https://sourceforge.net/projects/quast/files/quast-5.0.0.tar.gz/download
    解压缩安装: tar zvxf quast-5.0.0.tar.gz -C ~/Biosofts/
上一篇 下一篇

猜你喜欢

热点阅读