fastquniq

2022-09-27 本文已影响0人可能性之兽

Pcr扩增是duplicates的主要来源，一般是因为测序文库扩增来带入的。而这些重复的片段对获得scaffold和发现大规模基因组突变有很大的影响，所以需要去除。在获得scaffold这一步的时候，paired reads被用来评估初始contigs的俩俩中间距离，所以paired reads的数目在匹配到contigs上时对scaffolding的结果影响很大，如果有duplicates两种错误将会被引入：假阳性（因为大量的俩俩contigs之间的链接而导致contigs被错误的连接）和假阴性（因为大量有冲突的链接而导致contigs错误的链接）。

已有的方法是基于比对的策略来删除duplicates，paired reads先是被比对上参考序列上，利用短序列比对工具（bowtie,crossbow,bwa）,那些匹配的位置一模一样的就认为是duplicates，然后这些duplicates被这些工具给删掉（Rmdup in the SAMtools package [18], MarkDuplicates in the Picard toolkit [19], and SEAL）.但是这个方法需要完整的基因组作为参考序列，而大多数情况下，我们是没有可用的参考基因组序列。

更重要的是，这种paired reads 比对的方法可能被个体基因组之间的差异所影响（例如large scale structural variations , copynumber variations , small insertion/deletion variations ,and single-nucleotide polymorphisms (SNPs) ），同时也被穿插在整个基因组中的重复元素（例如Alu elements in primate genomes and Mu transposons in plant genomes ）所影响。

不依赖参考序列的去除duplicates的从头（de novo）的方法来删除成对reads的方法被需要。一些这方面的工具（ fastx_collapser in the FASTX-Toolkit[26] and Fulcrum [27]）不是针对paired reads的。

image.png
FastUniq: A Fast De Novo Duplicates Removal Tool for Paired Short Reads | PLOS ONE

FastUniq去除paired reads的duplicates - Sam' Note (qinqianshan.com)

fastquniq

猜你喜欢

热点阅读