人类泛基因组草图发布

2023-05-27 本文已影响0人生信小书童

近日，人类泛基因组参考联盟（HPRC）在《Nature》杂志上发表了《人类泛基因组草图》。相较于我们常用的GRCh37、GRh38 等线性参考基因组，泛基因组在微小变异检测和SVs检测上有较大提升，本篇文章对该泛基因草图进行了解析。短序列reads 比对至泛基因组需要用到新的比对软件 Giraffe https://www.science.org/doi/10.1126/science.abg8871，下篇文章会对这个软件和泛基组流程进行介绍。

1 摘要

人类泛基因组参考联盟（HPRC）发布了第一版人类泛基因组草图。这个泛基因组包含了47个不同祖先个体的分相二倍体组装（phased diploid assemblies）,覆盖了每个基因组中超过99%的预期序列，在基因结构和碱基水平的准确度超过99%。通过比对至新的组装基因组，人类泛基因组草图获得了已知的变异和单倍型信息，并在复杂结构位点揭示了新的等位基因。相对于现有的参考基因组GRCh38，新草图增加了1.19亿个碱基对的常染色质多态性序列和1115个基因重复序列，发现约9000万个新增加碱基对来自于结构变异。与基于GRCh38的工作流程相比，使用该泛基因组草图来分析短读长测序数据可以减少34%的微小变异发现错误，每个单倍型检测到的结构变异数量增加104%，使得每个样本中绝大多数结构变异等位基因的分型成为可能。

2 引言

自人类参考基因组草图发布20多年以来，已经成为人参考基因组学的支柱。初始的序列是单个人单倍体的嵌合代表，每条染色体都含有一个代表性的 scaffolds 序列。目前发布的GRCh38 含有210 Mb 的gap，包括 151Mb 的未知序列和 59 Mb 的计算模拟序列，占初始 scaffolds 序列的比例为 6.7% 。缺失的参考序列会导致比对偏倚，或者街灯效应，这将限制基因组学的研究。最近，端粒到端粒（T2T）联盟完成了人类单倍体基因组的第一个完整序列 T2T-CHM13，提供了每个常染色体和X染色体的无缝组装序列，部分核糖体DNA 序列仍有待完全解析。T2T-CHM13 直接改善了基因组的分析；例如，在与GRCh38不一致区域发现了370万个额外的SNPs，它能更好地代表千人基因组计划样本真实的SNP和拷贝数变异。

虽然 T2T-CHM13 基因组代表了一项重大成就，但是没有一个单独的基因组可以代表人类物种遗传的多样性。由于参考基因组中缺少多态性结构变异（SV）的替代等位基因，因此在使用短读长测序数据和前期人类参考基因组的研究中，超过三分之二的SVs被遗漏了，而且单个SVs比单个SNV/INDELs 影响更大。

为了克服单一参考基因组的偏差，研究人员已经开始向泛基因组参考图谱的过渡。过去几年中，泛基因组方法发展迅速，因此现在提出使用泛基因组进行基因组分析是可行的。在这里，文章对一组不同个体基因组进行了测序和组装，并提出了一个人类泛基因组草图。2019年，美国国家人类基因组研究所（NHGRI）成立人类泛基因组联盟 HPRC，它的目标是对350人个体的700个单倍型基因组进行组装，构建全球基因组多样性。本篇文章发布的人类泛基因组草图是这个计划的一小部分。

3 组装 47 个不同人类基因组

3.1 样本选取和组装策略

1、首先，研究人员从代表全球遗传多样性的基因组中选择了47个全相二倍体组合，包括29个样本，其长读长测序数据完全由HPRC生成，另外18个样本由其他测序方法获得，见Fig1a。

2、研究团队为每个样本创建了一组一致的深度测序数据类型。所有HPRC样本的数据包括PacBio公司的高保真数据（HiFi）和牛津纳米孔（ONT）的长读长数据、Bionano光学图和高覆盖率 Illumina短读长测序。为46个HPRC样本生成了平均39.7×覆盖深度的HiFi序列，HiFi读取的N50值平均为19.6kb。

3、组装部分，文章选择了 Trio-Hifiasm 软件进行组装。它可以利用家系父母Illumina 二代短序列 + 子代 PacBio HiFi 长序列组装全相的单倍体基因组。 Trio-Hifiasm 软件简要介绍可参考：https://zhuanlan.zhihu.com/p/283131167

3.2 组装评估

1、研究人员首先搜索了较大规模的错误组装，寻找基因复制错误、相位错误和染色体间错误连接，手动修复了3个大的复制错误和1个大的相位错误，并发现了217个假定的染色体间连接，这些连接中只有一个被人工确认为错误组装，其余的连接涉及到染色体的短臂，这可能是错位、非等位基因转换或其他生物机制导致的结果。

2、为了评估人工修正错误后的组装结果，研究团队开发了一个自动化的组装质量控制流程，该流程结合了可评估每个组装的完整性、连续性、基本质量和相位精度的方法。含有X染色体的单倍体平均总长度为3.04 Gb，是含有X染色体的 T2T-CHM13（3.06 Gb）的99.3%。包含一条Y染色体的单倍体平均总长度为2.93 Gb，反映了性染色体之间的大小差异。NG50的平均值与GRCh38的连续NG50值相当。评估结果表明，该组装流程具有高度的连续性和准确性，见 Fig1c。

3.3 区域组装的可靠性

1、为了确定组装的可靠性，文章开发了一个 read-based 的流程 Flagger ，用于检测不同类型的错误组装。Flagger 的主要原理是将HiFi reads 比对至母系和父系单倍体基因组，如果reads的覆盖率不一致，这可能是由组装错误导致的，见Fig1g
2、使用Flagger 流程，最终确认了组中不可靠的区域只占0.88%，见 Fig1h
3、通过对不可靠区域进行注释，在不同重复区域的可靠性为：alpha 微卫星区域（AlphaSat）为 95.4%；人2/3微卫星区域（Hsat2/3）为91.5%；片段重复区域（SDs）为 97.7%；可变串联重复区域（VNTRs）为94.3%；短串联重复区域（STRs）为94.2%；人基因组区域重复为98.8%，见 Fig1i

3.4 组装完整性和 CNV

1、为了评估组装的完整性和拷贝数多态性，文章将组装结果与 T2T-CHM13 参考基因组进行了比对。男性样本的父系组装约占 T2T-CHM13（去除X染色体）的 92.8% 区域有至少一次的覆盖，其他组装（去除Y染色体）约占 T2T-CHM13 的 94.1% 区域有至少一次的覆盖。约有4.4%的 T2T-CHM13 参考基因组区域没有任何覆盖，这部分区域可能是没有进行组装或者是比对不可靠，见 Fig1j 。
2、这些未比对上的碱基大多分布于着丝粒的内部和周围

4 注释 47 个不同人类基因组

1、文章开发了新的 Ensembl 映射流程利用GENCODE 数据库注释单倍体组装的基因和转录组。在每个HRPC 组装基因组中平均鉴定出 99.07% 的蛋白质编码基因， 99.42% 的蛋白质编码转录本，98.16%的非编码基因，98.96%的非编码转录本，其中T2T-CHM13 参考基因组的注释比例稍高，见Fig2a
2、将HPRC注释与组装可靠性结果联合分析，99.53%的基因和99.79%的转录组注释发生在可靠区域内，表明大多数注释的转录组单倍型在结构上是正确的。为了检测转录组碱基的准确性，文章在一组标准转录产物中寻找无义和移码突变，发现每个组装中有25个无义突变和72个移码突变
3、有1115个蛋白质编码基因家族在Flagger 流程预测的组装可靠区域内，至少一个基因组的拷贝数增加，见Fig2b
4、相对于GRCh38，在预测的可靠性区域内，每个组装平均有36个拷贝数增加的基因，倾向于是稀有低拷贝CNVs。具体来说，71% 的CNV 基因出现在单倍型中。在以往依赖于 read 深度的研究中发现，稀有CNVs 通常发生在注释为富集SDs的区域之外，基因组组装序列分析CNVs，证实了这一观察结果
5、总体而言，58个基因在10%或更多的单倍体组合中是CNVs，相对于GRCh38，大多数个体扩增了16个基因，其中许多基因具有高度拷贝数多态性，是复杂串联重复的一部分，见 Fig2de
6、GPRIN2 基因和 SPDYE2 基因都在串联重复区发生了拷贝数扩增，见 Fig2fg

5 构建泛基因组草图

1、文章使用序列图对泛基因组进行表示，其中节点对应DNA片段。每个节点有两种可能的方向，正向和反向，任意一对节点之间有4种可能的方向组合。单倍型序列可能代表图中的任一路线，见 Fig3a
2、生成代表性泛基因组是一个活跃的研究领域。这个问题并不简单，既有计算上的挑战（有数千亿的碱基需要进行比对），也有比对上的问题，需要确认正确的比对，特别是在重复区域。
文章此项目中使用了3种不同的图构建方法：Minigraph，Minigraph-Cactus(MC)，PanGenome Graph Builder(PGGB)，见 Extended Data Fig3
（1）Minigraph 从一个组装好的参考基因组 GRCh38 开始构建泛基因组，并迭代添加其他的组装区域，仅记录大于50bp的SVs。它允许纳入复杂变异，包括重复和翻转
（2）MC 扩展了 Minigraph 构建的泛基因组，使用 Cactus 基因组比对软件对两个组装片段之间的同源关系进行了碱基水平的比对
（3）PGGB 从all-to-all 组装比对中构建了一个泛基因组。PGGB 图并不基于所选的参考基因组，尽管 T2T-CHM13 和 GRCh38 的contigs 都被用于构建染色体

5.1 检测泛基因组变异

1、Minigraph 图是最小的，为3.24GB。由于受结构突变的限制，它的节点和边的数量与基本水平的图相比要小两个数量级；MC 图为 3.29GB，相比于Minigraph ，它增加了一些微小变异的区域；PGGB 图包含大概 5GB 的序列，因为它包含了其他方法排除的高度结构化的微卫星区域，并且没有对组装的 contigs 进行修剪和过滤
2、为了描述泛基因组图中的变异，文章使用图分解来识别对应非重叠变异位点的“气泡”子图，然后将变异位点分为不同类型的小变异（<50bp）和 SVs（≥50bp）。
3、文章发现不同泛基因组中每种类型的突变数目相似，其中MC 图中有2200万个微小变异，PGGB中有2100万个微小变异，见Fig3b；MC图有 67000个SVs，PGGB有73000个SVs，Minigraph有 75000 个SVs，见Fig3c
4、通过在图中追踪每个个体组合的路径来评估其变异，并在Dipcall定义的基因组区域内发现了相似数量的小变异和SV，在MC图中，每个样本有534万个小变异，每个单倍型平均有16,800个SV，见Fig3ef
5、在MC图中，在SV 位点上共有 90 Mb的非参考基因序列，不包括难以比对的着丝粒重复序列。Alu, L1和ERV SVs主要表现为双等位基因，而VNTRs 通常在每个位点有三个或更多不同的等位基因。双等位基因变异的泛基因组中的次要 AF 与SNP以及L1、Alu和VNTR变异相似，尽管VNTRs变异向更常见的等位基因略有转移，见Fig3d
6、文章量化了44个二倍体基因组中每个基因组对泛基因组增量贡献的常染色体非参比序列的数量，使用MC图和PGGB图，见Fig3h

1、为了进一步探索变异检测的质量，文章对比了基于传统的GRCh38和基于泛基因组的变异比较。将泛基因组中的小变异与SVs 与基于参考基因组的集合进行了比较，发现结果高水平一致性，见Fig4abc。
2、此外，泛基因组草图在捕捉基因组变异方面的表现比基准方法结果要好，见 Supplementray Fig8。

5.2 泛基因组代表性的复杂基因组位点

1、复杂的多等位基因SVs很难基于参考基因组的方法进行比对。为了筛选复杂的SVs，文章从 Minigraph 中找到了在组装的单倍型中至少出现5个结构等位基因的>10 kb的气泡。由于比对和低覆盖的原因，之前短序列检测SVs的方法在这些位点是不准确的，这里文章以单碱基分辨率解决了结构问题。
2、在 RHD-RHCE 复杂SVs中，除了先前描述的单倍型外，还检出了5个新的单倍型，见Fig5a-c。在HLA-A 周围，先前已经描述了两个缺失等位基因，但先前未报道携带HLA-Y假基因插入等位基因。HLA-Y基因插入（65kb）出现频率较高（28%），但是与GRCh38的同源性较小，见Fig5d-f

6 泛基因组的应用

6.1 基于泛基因组检测微小变异

1、文章建立泛参考基因组旨在消除使用单一线性参考基因组（GRCh38和CHM13）造成的比对偏倚，从而广泛的改善下游分析流程。文章进行了初始测试，解释了为什么使用泛基因组进行比对可以改善短 reads 检测微小变异的准确性。以下是不同比对软件，参考基因组和变异检测软件的组合，最终结果显示泛基因组组合（Giraffe + DeepVariant）在检测微小变异方面表现更好，见Fig6ab
（1）比对Giraffe + MC泛基因组 + 变异检测（DeepVariat / Deep Trio）
（2）比对DragenGRAPH + GRCh38基因组 + 变异检测（Dragen / Deep Trio）
（3）比对BWAMEM + GRCh38基因组 + 变异检测（DeepVariant / Deep Trio）
2、使用泛基因组进行比对可以使很多区域受益，但受益最大的区域是GRCh38中的错误区域以及大的 L1HS 序列区域

6.2 泛基因组变异资源

1、为了创建社区资源，帮助开发基于泛基因组群体遗传学的方法，文章使用Giraffe 对 1KG 计划的3202 个高深度短序列的样本进行了比对，并使用DeepVariant 软件对变异进行了分析。与 1KG 计划检测出的变异相比，使用泛基因组每个样本平均多出 64000 个变异，见Extended Data Fig7a
2、通过检测 1KG 计划样本的突变，为遗传学和基因组学社区提供了复杂基因位点的频率信息。例如，使用泛基因组学的方法可以检测到覆盖RHCE基因第二外显子的转换突变，这种单倍型发生的概率为25%；对于 KCNE1基因，泛基因组的方法可以检测跨越3个外显子，40kb 区域的变异和频率，但是这个区域在GRCh38 中由于存在错误的重复，之前无法评估。

6.3 SV分型

1、 SV 多态性是基于图的泛基因参考基因组的一个关键优势。为了展示泛基因组固有的SVs的分辨效果，使用 PanGenie 对 MC 图进行了基因分型。通过对 1KG 计划的3202个样本进行分型，最终产生了一个过滤后、高质量的分型数据集，包括28434个缺失等位基因，84752个插入等位基因，26439个其他等位基因。对比 1KG 计划样本和 HPRC 泛基因组样本计算的AFs，两者具有较高的皮尔逊相关性，见Fig6c 。
2、为了对比多检出泛基因组方法多检出 SVs 的能力，对 HPRC PanGenie filtered ,HGSVC PanGenie lenient , 1KG Illumina calls 进行了对比。HPRC 的方法检出了更多的SVs，特别是在 deletions 小于300bp，见Fig6de。

7 讨论

1、文章发布了来自47个不同个人的94个从头组装单倍型。这是一套完全分相的人组装基因组，并在组装质量上优于之前水平，这源于更好的测序技术和从头组装算法
2、这里介绍的泛基因组是一组不同个人单倍型组装基因组的组合，这种组合也可以称为是变异的图谱。这里呈现的泛基因组可以使用压缩的 GFA 二级制格式进行无损存储，仅为 3-6 Gb，含有超过2820 亿个碱基序列。
3、文章对复杂区域和医学相关区域的研究表明，泛基因组可以真实地概括现有的知识，更有利于发现与人类疾病相关的复杂变异。
4、泛参考基因组的近期应用是可以改进参考基因组相关的比对流程。在这些工作流程中，泛基因组可以作为现有参考基因组的替代，供下游处理。即 Giraffe 比对 + DeepVariant 检测变异流程。DeepVariant 软件本身不需要考虑泛基因组的复杂性，但是比对步骤可以改善线性参考基因组中的缺失序列。与使用标准参考基因组相比，使用泛基因组并没有显著增加计算成本，而假阳和假阴性错误平均减少了34%，特别是在基因组复杂区域。
5、泛基因组相比之前的线性基因组能更好的检测SVs，可以更好的改善短序列检测SVs。在未来，泛基因组加低成本长reads 可能是SV 综合基因分型的有效组合。
6、目前发布参考基因组草图还存在一些不足和挑战。如HRPC组装错配序列比 T2T-CHM13 序列多一个数量级。目前纳入的队列人数还比较小，近期会将泛基因组队列扩展至350人。该项目的部分价值将在于未来为人们如何捕捉变异多样性建立新的标准，以实现建立一个共同的全球参考资源的宏伟目标。

8 参考

[1] Liao, WW., Asri, M., Ebler, J. et al. A draft human pangenome reference. Nature 617, 312–324 (2023).
https://mp.weixin.qq.com/s/YMCEDc4VplfjhvdtZE4EUw
https://zhuanlan.zhihu.com/p/283131167