1 生物信息学RNA 转录组学Transcriptomics序列比对sequence alignment

序列比对BWA(Burrows-Wheeler Aligner)

2018-06-02  本文已影响233人  模拟数据X

BWA (Burrows-Wheeler Aligner)

BWA主要是将reads比对到大型基因组上,主要功能是:序列比对。首先通过BWT(Burrows-Wheeler Transformation,BWT压缩算法)为大型参考基因组建立索引,然后将reads比对到基因组。特点是快速、准确、省内存。由三种类似算法组成:BWA-backtrack,BWA-SW和BWA-MEM。首推BWA-MEM。

三种算法的适用范围

语法

BWA参数

SAM格式

short-reads比对

BWA-0.6的改变

0.6版本以来,BWA可以处理长度在4G以上的基因组。这样有可能将正负链互补的基因组序列整合到一个索引(FM-index)中去,可以使BWA-short和BWA-SW更快。
最新版本BWA-SW同样可以处理长度大于100bp的pair-end reads。与BWA-short相比,BWA-SW对高度唯一的reads准确性更高和相对更长的插入与结构突变时更稳健。尽管如此,从许多次优比对中选取最优比对时,BWA-short更好。

其他情况

  1. 一个read有多部分匹配
    BWA-MEM / BWA-SW可以报告单个reads分段比对到基因组上不同位置。在结构变异,基因融合或参考序列错误组合等情况下,多部分比对是可能的。这需要后续分析。可使用选项'-M'将附加匹配标记为次要。
  2. BWA是否可以发现嵌合reads(chimeric reads)?
    是的,BWA-SW和BWA-MEM都能找到嵌合reads。 BWA通常为每次读取报告一个比对,但如果read/config是嵌合reads,则可以输出两个或多个比对。(我想:应与上面的1相同)
  3. BWA是否分析SNP?
    不,BWA只比对。其SAM格式输出结果,可通过如samtoolsGATK分析SNP。
  4. paired-end数据中一条reads具有很高的比对质量(high mapping quality),另一条是0
    这是对的。比对质量是分配给单个read,而不是读read pair。
  5. BWA是否能处理长度超过4GB的参考序列?
    是。自0.6.x以来,所有BWA算法都可以处理总长度超过4GB的基因组。但是,单个染色体不应超过2GB。
  6. 测序错误的容忍度是多少?
    Bwa-back主要为reads错误率小于2%而设计。可通过命令行参数调整算法对错误率的容忍度,但其性能会迅速降低。对于Illumina读取,bwa-backtrack可以在比对前将3'端低质量碱基修剪,3'尾部有高错误率的很多reads能够完成比对,这是Illumina数据的典型特征。
    BWA-SW和BWA-MEM在给定较长对准的情况下都容忍更多的错误。仿真表明,如果100bp对齐误差为2%,200bp误差为3%,500bp误差为5%,1000bp或更长对齐误差为10%,则仿真结果可能会很好。
  7. 有reads比对出染色体末端,并被标记为未映射(标志0x4)。这里发生了什么?
    BWA内部实现时,会将所有参考序列先连接成一个长序列。reads可以被映射到两个相邻参考序列的交点。在这种情况下,BWA会将读取标记为未映射,不过你会看到位置,CIGAR和所有标记。一个更好的解决方案是选择一个替代的位置或者调整最终的比对方式,但是这在编程中非常复杂,目前尚未实现。

本文主要参考BWA官方说明文档BWA手册

Published Articles:

上一篇 下一篇

猜你喜欢

热点阅读