生信工具『三代测序』基因组

「生信」三代基因组De novo assembler —— Fa

2019-01-28  本文已影响70人  bioinfo_boy

目录

  • 关于 Falcon
    • 部件介绍
    • 组装流程
    • Connection within HGAP4 vs falcon vs falcon-unzip
  • 安装及测试数据下载
  • 试运行
  • 最后

很多公众号都有介绍关于 Falcon 各参数的设置经验, 而安装指南却没有一份系统的资料供借鉴. 前两年安装只能通过官网下载安装包, 一步步的配置其运行环境, 步骤繁琐, 如果是非管理员用户, 搞定运行环境就更难了. 好在前段时间, PacBio 发布了 Anaconda 版本, 使非管理员用户可以比较轻松的解决 Falcon 的安装问题
Anaconda 中的最新版本为0.0.3, 可能做得不够"傻瓜", 运行过程中会遇到几个普遍的错误. 这篇文章是我对 Falcon 原理背景、安装问题解决和试运行的学习笔记

关于 Falcon

Falcon是由PacBio 开发用于SMRT测序长reads的基因组从头组装工具, 其包含的主要部件为:

部件介绍

组装流程

Step1-预组装/错误矫正

HGAP&falcon完成. 筛选种子序列或者说是最长序列(通过length_cutoff控制), 将短序列映射到当序列中, 目的是获得高准确率的一致性序列, 该步骤完成后获得的序列准确率大于99%

Step2-组装

HGAP&falcon完成. 将预组装的序列(preassembled reads, preads)相互映射, 得到原始的基因组 contigs

Step1&2
Step3-抛光

组装完成后要进行第一轮抛光, 需要将所有的subreads映射到原始基因组中, 这一步骤能大幅度的提高碱基的准确率

Step4-Haplotigs组装

falcon-unzip完成. 对于复杂基因组, 由于SV等结构变异以上步骤会组装出"气泡"结构, 也就是差异同源区域, unzip 会根据"气泡"结构和周围的SNP位点切断差异区段, 将haplotigs 组装出来, 继而将原始基因组 contigs 精细的组装为精度更高的 contigs(primary contigs) 和haplotigs

Step4
Step5-Hi-C data mapping

上一步虽然细分出了primary contigs 和haplotigs, 但却无法在整个基因组范围内区分每个气泡结构究竟是属于哪个单体, 简单点说, 如果整个基因组只有一个"气泡"结构, 那么不需要Hi-C 数据就可以区分出两个单体, 而≥2个"气泡"结构时, 单凭已有数据是无法排列的. 以下是Hi-C辅助组装示意图:


Step5

Connection within HGAP4 vs falcon vs falcon-unzip

安装及测试数据下载

#安装
$conda search pb-assembly
$conda install pb-assembly=0.0.3 #或者其他版本
#下载200Kb test case
$git clone https://github.com/cdunn2001/git-sym.git
$git clone https://github.com/pb-cdunn/FALCON-examples.git
$cd FALCON-examples
$../git-sym/git-sym update run/greg200k-sv2

报错解决

通过Anaconda安装相比之前, 节约了90%以上的时间, 运行环境基本已经配置完全, 只有个别几个软件需要更新一下版本, 遇到的问题在log 日志文件里都有记录.
报错是在试运行阶段遇到的, 但为了学习更流畅, 就把这部分提到前面介绍了

[ERROR1]

software/prefix/python2.7/bin/python2.7: No module named pypeflow
$source ~/.bashrc
$conda search python
$conda install python=2.7.13 #或者更高版本

[ERROR2]

AttributeError: 'IntervalTree' object has no attribute 'search'
$conda list
$conda search python-IntervalTree #会发现有两三个版本
$conda install python-intervaltree=2.1.0 #只有2.1.0含有 search 属性, 真坑

[ERROR3]

ERROR: CLI::Interface - unknown option name: sorttouch quiver_done.exit
#Google 这个问题都没有记录, 也是奇了怪
$conda update --all
$conda update -c bioconda --all
$conda install pbmm2=0.12.0
$conda install pbcore=1.6.5
$conda install pbalign=0.3.2

试运行

$cd run/greg200k-sv2
$fc_run fc_run.cfg
$fc_unzip.py fc_unzip.cfg

运行完成后, 基因组.fasta 文件存放在4-polish/cns-output目录中

最后

HOPE
上一篇 下一篇

猜你喜欢

热点阅读