Shu2020 4种SNP调用管道的比对
Testing pipelines for genome-wide SNP calling from Genotyping-By-Sequencing (GBS) data for Pinus ponderosa. 10.21203/rs.3.rs-32336/v1
背景
单核苷酸多态性(SNP)标记由于其在大多数基因组中的丰富性和对高通量基因分型技术的适应性而迅速得到普及。减少代表性限制性内切酶测序方法(GBS或RADseq)已被证明是一种稳健和经济有效的基因分型方法。虽然先前的研究表明,将短读片段与基因组序列比对比从头开始的方法能产生更好的SNP调用,但只有少数树种,特别是少数针叶树具有注释序列。虽然这些序列可以用来比对来自相关物种的序列片段,但如果它们位于不正确排列的片段中,序列差异可能会导致snp丢失。在进行SNP分析之前,为每一种针叶树物种产生一个新的带注释的基因组序列仍然是禁止的,因为许多针叶树基因组巨大(>19gb),并且包含大量的重复序列,使得组装困难。这里我们比较了四条生物信息学管道,其中两条需要参考基因组(TASSEL-gbsv2和Stacks),其中两条是从头开始的管道(UNEAK和Stacks)。以火炬松为参考基因组,利用94株黄松的Illumina序列数据。
结果
在没有参考基因组的情况下,被调用的snp数量要少得多(6.2-19万对210-270万)。UNEAK最快,发现的snp比Stacks de novo多。具有参考基因组的Stacks产生的snp数量最多,旁系同源比例最低,而由TASSEL-GBS V2鉴定的snp表现出最高的杂合度、较小的等位基因频率和旁系同源比例。虽然方法之间有很高的重叠,但Stacks比TASSEL识别出更多的snp。
结论
本案例研究对四种常用的SNP调用管道进行了综合比较,确定了基于Stacks的方法对于没有相同物种的参考基因组的针叶树(或其他具有大量重复基因组的物种)是最好的方法。然而,这四条管道都有明显的优点和局限性,例如,Stacks不如其他一些管道友好。此外,使用类似方法研究其他针叶树物种的研究人员应该准备好分析大量的snp。