10#pan-genome# EUPAN
Hu Z, Sun C, Lu K, et al (2017) EUPAN enables pan-genome studies of a large number of eukaryotic genomes. Bioinformatics 33:2408–2409. https://doi.org/10.1093/bioinformatics/btx170
泛基因组分析最开始用于分析细菌,以解释物种内基因的存在-缺失变异(PAV)。真核生物基因组大、复杂性高,很少进行泛基因组分析。提出了真核泛基因组分析工具包EUPAN,能够在相对较低的测序深度下进行大规模的真核泛基因组分析和基因PAV检测。之前的研究证明了EUPAN在453个水稻基因组的泛基因组分析中有效且准确性高,还发现了在单个水稻基因组间广泛存在的基因PAV。EUPAN可直接应用于当前主要关注SNP的重测序项目。
基因PAV在物种内分化中非常重要,并具有独特的作用,尤其是对于植物/作物。首先对单个基因组进行从头组装和注释,然后通过比较个体间的蛋白质序列来确定基因PAV。相对复杂(基因组大、重复序列水平高)的真核生物基因组的组装需要高测序深度和多个不同插入大小的DNA文库,成本较高。因此过去泛基因组涉及的个体数量非常有限。在大多数情况下,有限的个体不能代表整个物种,正如我们在3000水稻基因组项目(水稻基因组项目,2014年;Sun等人,2016年)的最新报告中所证明的那样。我们还证明,基于基因PAVs的全基因组关联研究(GWAS)可以有效地检测表型相关基因,可以作为传统基于SNP的GWAS的重要补充。因此,大规模真核泛基因组研究的工具和方法具有重要意义和迫切需求。
提出了确定基因PAV的`map-to-pan'策略(图1的右面板),包括以下步骤:(1)个体基因组的从头组装;(2) 基于集合和可用参考基因组构建泛基因组序列;(3)泛基因组序列的基因注释;和(4)根据PAV基因组序列的基因覆盖率确定PAV。在测序深度>20倍的情况下,基因组可以通过读长作图完全覆盖,尽管它组装得很差。为了支持和加速高等真核生物的大规模泛基因组研究,我们重新组织和完善了代码,并构建了EUPAN工具箱,使其成为一套高度可配置的命令行工具。
EUPAN可以在带有LSF/SLURM系统的计算机集群上并行地或在一台机器上顺序地对数千个样本执行以下操作:
- 检查并绘制整体测序质量;
- 使用过滤和修剪方法提取高质量读长;
- 使用自动选择的最佳Kmer进行重新组装;
- 评估从头组装;
- 将重叠群与参考基因组对齐,提取非冗余新序列,构建泛基因组序列集;
- 映射读长到泛基因组或参考基因组;
- 评估读长映射;
- 通过将读长映射到参考泛基因组来确定基因PAV和基因家族PAV。
EUPAN集成了许多独立工具,包括用于读长质量操作的FastQC和Trimmomatic(Bolger等,2014)、BWA(Li和Durbin,2009)、Bowtie2(Langmead和Salzberg,2012)和SAMtools(Li等,2009)用于绘图,SOAPdenovo2(Luo等人,2012年)和QUAST(Gurevich等人,2013年)用于组装、BLAST和CD-HIT(Fu等人,2012年)用于对齐和聚类。此外,尽管EUPAN支持任何类似Unix的机器,但我们强烈建议在计算机集群上运行EUPAN,因为分析涉及大量计算和高存储。
除了SNP和结构变异外,基因PAV是另一种在细菌和植物亚种分化中起重要作用的变异形式,其在动物中的潜力尚未得到充分的研究。我们引入了map-to-pan策略和EUPAN工具箱,使基于基因PAV的分析能够参与数百甚至数千个个体的泛基因组研究,以获得具有大量基因组的高等真核生物。
routinely 通常、定期
for most cases 大多数情况下