短序列比对及常用文件

2020-06-13  本文已影响0人  Peng_001

和长序列比对不同,短序列比对有其自身的特点与应用。

就是将测序的reads 重新定位到基因组上,这个过程也叫做回帖mapping

illumina 测序数据特点

reads 比对情况

  1. perfect match,reads 一对一正确比对到基因组上位置。
  2. reads 有错配的比对到基因组唯一位置。(可能由于突变造成、也可能是测序错误)
  3. reads 无错配的比对到基因组多个位置。(重复区域)
  4. reads 有错配的比对到基因组多个位置。
  5. reads 比对不到基因组上。(同源性低、测序错误、突变太多等等。。)

短序列比对应用

reads 利用率

覆盖深度与覆盖比率

覆盖深度,coverage depth,也叫做覆盖度、乘数,是指每个碱基被测序的平均次数,是用来衡量测序量的首要参数。

覆盖比率,coverage ratio,覆盖率,指被测序到的碱基占全基因组的大小

一个好的测序,需要具备较高的覆盖比率与覆盖深度。

一般测序会存在高、低覆盖区,这些区域产生的原因可能是由于GC 偏向造成的。
高覆盖深度区域相对来说准确性也更高。

而覆盖比率也可以近似的反映测序序列与参考序列的相似程度,若覆盖比率较高,也就具有较高的同源性。

当测序样品与参考序列为远缘关系时,短序列比对就很难比对到参考序列上。

短序列比对工具

算法

工具

BWA


bwa是短序列比对中最常用的工具。可以输出bamsam

使用步骤

1.对参考序列构建索引
通用语法:

bwa index [-a bwtsw|is] [-c] <in.fasta>

选项bwtsw 适用于大基因组,一般小于10M的就不适用,比如细菌;而选项is 不适合大基因组,一般大于2G,比如人。

2.对reads 建立索引
通用语法

bwa aln [options] <prefix> <in.fq>

此外还有很多的选项


3.sampe 比对
构建完了reads 与参考基因的索引文件,就可以进行比对。一般双末端选用Sampe。如果是单末端,则选择samse

比对文件会输出为.sam格式。

soup

https://bio.tools/soap
soup,全称short oligonucleotide analysis package。为华大开发的软件工具包。soup 在比对时与bwa 一样,同样采用了bwt 算法。

使用步骤

1.建立索引


2.soup比对
soup 输出结果并非sam,但soup也可以转换为sam格式。

bowtie

与前面两个软件类似,但速度更快,一般应用于RNAseq分析。
但bowtie 也有许多限制,如不支持长度太大片段等。

软件的比较

注意事项

上一篇 下一篇

猜你喜欢

热点阅读