《专家共识》|如何评价单菌基因组质量
《微生物组测序与分析专家共识》涵盖从微生物采集与保存、DNA提取建库、高通量基因测序和数据分析以及质控标准品等全流程、各环节的建议和标准。其中包含了对扩增子测序、元基因组、单菌基因组、转录组测序及数据分析各环节的操作方法、评价指标以及相应软件的介绍,今天小编就带大家来看看,关于单菌基因组测序与分析都有哪些衡量标准,看看你的基因组是否合格?
对分离纯化培养的单菌进行DNA提取、文库构建、测序和全基因组组装。单菌全基因组的从头组装(denovo)或重新组装的生物信息分析流程主要包括:序列质控、全基因组组装、基因组质量评估、基因注释和功能分析等(图1)。

图1.单菌基因组测序生物信息分析流程图
[if !supportLists]1、[endif]数据质控
在进行正式分析前,要先对下机数据进行质控。二代数据质控过程主要包括:移除低质量序列、过短序列、接头序列等,同时移除连续低质量碱基(Q<20)数大于40%的读序。Pacbio三代平台数据的过滤参考阈值如下:移除长度较短的读段 (≤500 bp) 和低质量的读段(Mean Concordance>0.8)。
Tips1:二代测序中,每测一个碱基会给出一个相应的质量值(Q)用来衡量测序的准确度。如碱基的质量值20,表示该碱基被识别错误的概率为10-2,即1%,30的错误率为10-3,即0.1%。Q20与Q30则表示质量值≧20或30的碱基所占百分比。Illumina官方一般以Q30作为评价标准。
[if !supportLists]2、[endif]全基因组组装
二代测序数据读长(reads)较短 (150–300 bp),无法跨越基因组中某些长于reads的重复序列区域,导致组装结果片段化,即形成大量长的 Contig 和 Scaffold。结合三代测序长读序和二代测序高精度的优点,进行“三代加二代”的全基因组组装,即应用单分子测序的长读长进行最初的基因组组装,然后结合高精度的二代测序的短读序对组装的序列进行校正(Polished),结果产生了更长的序列和更准确的功能注释。
常用的高通量基因测序平台的单菌组装软件有SOAP denovo或 SPAdes 等软件。二代/三代混合组装可应用 Unicycler。三代组装软件有 Canu、HGAP、Falcon 或 SMRT Link 等软件。“三代加二代”组装时,可应用软件 bwa 比对高通量基因读序到矫正后的三代组装序列上,进行再校正,提高序列精度。(详情点击“阅读原文”获取)
[if !supportLists]3、[endif]基因组质量评估
组装后的单菌全基因组应进行标准的质量评估,建议遵从美国能源部联合基因组研究所(DOE JGI) 发布的定义不明微生物基因组的MISAG标准。
相关文章2017年发表在《nature biotechnology》,《Minimum information about a single amplified genome (MISAG) and a metagenome-assembled genome (MIMAG) of bacteria and archaea》
MISAG(单菌基因组标准)分别从组装质量(assembly quaility)、基因组完整性(genome completeness)、基因组污染率(contamination)三个方面进行量化评判(table1),文章同时也对各部分评估所用软件/工具进行了说明。

基因组组装质量评估可以参考scaffold/ contig的总数、N50/N90 长度、最长/最短长度、序列中的 N 含量 (N rate) 和 GC 含量 (GC%) 等参数进行综合评估。细菌完成图可参考染色体是否成环 (gap=0)。真菌精细图谱质量的质控参数为 N50>2M (真菌 survey 的杂合率<0.8)。评估基因组组装的完整性和质量可应用基于保守基因集的 CEGMA 和单拷贝看家基因的CheckM 等软件。(详情点击“阅读原文”获取)
[if !supportLists]4、[endif]基因注释和功能分析
细菌编码基因的预测可应用Glimmer 、Prodigal 和 GeneMarkS 等软件。非编码 RNA 的分析可应用 RNAmmer、Barrnap 或 tRNAscan-SE。其他基因组组分预测有:CRISPRFinder 和 PHAS等软件预测前噬菌体; RepeatMask 和 TRF (Tandem Repeats Finder) 等软件识别基因组的重复序列,功能预测可应用HUMAnN2 或 BLAST+。
参考文献:
[if !supportLists]1、[endif]《“微生物组测序与分析专家共识”细则》;
[if !supportLists]2、[endif]《微生物组测序与分析专家共识》;
3、Bowers, R., Kyrpides, N., Stepanauskas, R. et al. Minimum information about a single amplified genome (MISAG) and a metagenome-assembled genome (MIMAG) of bacteria and archaea. Nat Biotechnol 35, 725–731 (2017). https://doi.org/10.1038/nbt.3893
上海唯那生物科技有限公司于2020 年 4 月在上海市奉贤区东方美谷生物科技园注册成立, 公司专注于提供生物科研过程中的周边服务,主要业务分为四个模块:
①基因组学测序服务,尤其是病原细菌、真菌、病毒的测序和数据的个性化深度加工挖掘;
②生物科研技能培训服务,包括生物信息学(生物科学和IT 技术的结合)技能培训、生物
科研实验操作技能培训等,自主搭建了“密码子学院”这个行业性技术培训平台;
③试剂耗材商城,主要提供实验室科研人员开展研究过程中所需要的各类生物制剂、实验
消耗品等,自主搭建了“密码子商城”这个专注于实验室试剂耗材的专业类交易平台。
④生物科研的云计算平台的开发和生物资源数据库平台的搭建,以生物云的方式为不同水
平的科研团队提供支持。
更多精彩内容:请关注微信号:密码子实验室