fastquniq
Pcr扩增是duplicates的主要来源,一般是因为测序文库扩增来带入的。而这些重复的片段对获得scaffold和发现大规模基因组突变有很大的影响,所以需要去除。在获得scaffold这一步的时候,paired reads被用来评估初始contigs的俩俩中间距离 ,所以paired reads的数目在匹配到contigs上时对scaffolding的结果影响很大,如果有duplicates两种错误将会被引入:假阳性(因为大量的俩俩contigs之间的链接而导致contigs被错误的连接)和假阴性(因为大量有冲突的链接而导致contigs错误的链接)。
已有的方法是基于比对的策略来删除duplicates,paired reads先是被比对上参考序列上,利用短序列比对工具(bowtie,crossbow,bwa),那些匹配的位置一模一样的就认为是duplicates,然后这些duplicates被这些工具给删掉(Rmdup in the SAMtools package [18], MarkDuplicates in the Picard toolkit [19], and SEAL).但是这个方法需要完整的基因组作为参考序列,而大多数情况下,我们是没有可用的参考基因组序列。
更重要的是,这种paired reads 比对的方法可能被个体基因组之间的差异所影响(例如large scale structural variations , copynumber variations , small insertion/deletion variations ,and single-nucleotide polymorphisms (SNPs) ),同时也被穿插在整个基因组中的重复元素(例如Alu elements in primate genomes and Mu transposons in plant genomes )所影响。
不依赖参考序列的去除duplicates的从头(de novo)的方法来删除成对reads的方法被需要。一些这方面的工具( fastx_collapser in the FASTX-Toolkit[26] and Fulcrum [27])不是针对paired reads的。
FastUniq: A Fast De Novo Duplicates Removal Tool for Paired Short Reads | PLOS ONE
FastUniq去除paired reads的duplicates - Sam' Note (qinqianshan.com)