数据库介绍 | COV2Var,一个关于SARS-CoV-2遗传

2024-08-25  本文已影响0人  BioJournal_Link

Basic Information

Abstract

  1. 由冠状病毒SARS-CoV-2引起的COVID-19大流行已导致数百万人丧生,并造成了严重的全球经济后果。
  2. 每当SARS-CoV-2复制时,病毒在其基因组中获得新的突变。
  3. SARS-CoV-2基因组中的突变导致传染性增加、疾病后果严重、逃避免疫反应、临床表现变化以及降低疫苗或治疗的有效性。
  4. 截至目前,多种资源提供了检测到的突变列表,但缺乏关键的功能注释。
  5. 缺乏研究来探讨突变与各种因素之间的关系,如疾病严重程度、致病性、患者年龄、患者性别、跨物种传播、病毒免疫逃逸、免疫反应水平、病毒传播能力、病毒进化、宿主适应性、病毒蛋白结构、病毒蛋白功能、病毒蛋白稳定性及并发突变。
  6. 深入了解突变位点与这些因素之间的关系对于推进我们对SARS-CoV-2的认识和制定有效应对措施至关重要。
  7. 为了填补这一空白,我们构建了COV2Var,这是一个关于SARS-CoV-2遗传变异的功能注释数据库,可在http://biomedbdc.wchscu.cn/COV2Var/访问。
  8. COV2Var旨在识别SARS-CoV-2变种中的常见突变并评估它们的影响,为SARS-CoV-2变种中常见突变的深入功能注释提供了一个宝贵的资源


Introduction

Para_01
  1. 截至2023年7月,SARS-CoV-2病毒已导致全球超过4亿5千万人感染和6百万人死亡,该病毒是COVID-19大流行的原因所在。
  2. 如同其他RNA病毒一样,SARS-CoV-2具有较高的突变率。
  3. 尽管大多数突变在功能上是中性的并且随机发生,但有些突变可以赋予病毒生存优势。
  4. 病毒突变可以在许多方面影响宿主与病原体之间的相互作用(例如,影响病毒传播、影响致病性、逃避自然或疫苗诱导的免疫、规避治疗或诊断测试检测以及改变宿主物种范围)。
  5. 例如,刺突蛋白中的D614G突变与提高传播效率有关联。
  6. 病毒采取了一种生存策略,通过缓慢接受新突变的方式逐步进化,而更倾向于结合现有的突变以获得进化优势。
  7. 这表明病毒可能已经探索了大部分有利突变,使其继续通过利用现有突变组合的方式进行进化。
  8. 因此,研究单个突变的确切影响至关重要,目的是确定新突变是否具备使其更具致命性和传染性的特征。
Para_02
  1. 截至目前,有关SARS-CoV-2突变标注的资源多种多样(例如COVID-19 CG、CovMT、CoV-GLUE、coronapp、GESS和Outbreak.info)。
  2. 然而,这些资源仅提供了在SARS-CoV-2变异株中检测到的突变列表,并没有进行深入的功能注释或提供对人类健康的新见解。
  3. 为了填补这一空白,我们对超过130亿条SARS-CoV-2基因组序列及相关元数据进行了全面的生物信息学分析。
  4. 通过这次广泛的考察,我们确定了SARS-CoV-2基因组中共有9832种常见突变。
  5. 随后,我们对这9832种常见突变背后的机能机制进行了深入注释。
  6. 例如,我们研究了这些突变与多种因素之间的关联,包括疾病严重程度、患者年龄、患者性别、跨物种传播、病毒免疫逃逸、免疫反应水平、病毒传播能力、病毒进化、病毒蛋白结构、病毒蛋白功能、病毒蛋白稳定性以及并发突变。
  7. 由此产生的知识库COV2Var可在http://biomedbdc.wchscu.cn/COV2Var/获取,为日常SARS-CoV-2相关研究提供了一个重要资源。
  8. COV2Var将有助于加深我们对SARS-CoV-2及其在新环境中适应机制的理解,并促进有效策略的开发以对抗该病毒。

Data integration and annotations

Data collection and quality control

数据收集与质量控制

Para_03
  1. 2023年3月2日,我们从全球禽流感数据共享倡议(GISAID)数据库中检索了SARS-CoV-2序列,这些序列的采集时间跨度从2019年12月至2023年2月。
  2. 我们应用过滤器来选择具有完整基因组的序列,排除了覆盖率低(超过5%的未定义核苷酸‘N’)的序列,并确保每个序列都有完整的采集日期信息。
  3. 此外,我们还收集了与每个序列相关的元数据。
  4. 我们使用Pango命名法中的SARS-CoV-2谱系指定来对序列进行分类(例如Alpha、Delta变种)。
  5. 这种分类排除了被标记为‘无’或‘未分配’的记录。

Mutational analysis

突变分析

Para_04
  1. 为了分析SARS-CoV-2基因组序列的突变,我们使用了微生物基因组突变追踪器(MicroGMT)软件,并采用SARS-CoV-2(武汉-胡-1)的默认注释。
  2. MicroGMT接收组装后的基因组序列作为输入,并将其与参考序列进行比较以检测和表征插入、删除和点突变。
  3. 用于分析的参考序列为SARS-CoV-2分离株武汉-胡-1(GenBank登录号NC_045512.2)。
  4. 我们分析中的所有核苷酸位置标签均基于与该参考序列的比对。
  5. 在我们的研究中,我们利用这一工具分析了大量共计13,344,494个SARS-CoV-2分离株的基因组序列。
  6. 我们应用了筛选标准来识别更为普遍且具有生物学意义的突变,这些突变可能对病毒适应性和生存优势产生影响。
  7. 筛选标准如下:(i) 突变在一个或多个病毒谱系(Pango谱系)中的频率大于0.01,并且在同一特定谱系中至少出现两次;(ii) 突变必须出现在总共2735个谱系中的两个或更多谱系内。

Geographical and temporal distributions analysis of mutations and frequency across lineages

突变及其频率在不同谱系中的地理和时间分布分析

Para_05
  1. 每个 SARS-CoV-2 基因组序列的元数据包括位置、采样时间和 Pango 分支信息。
  2. 通过结合这些元数据和从序列中检测到的突变,我们获得了有关突变模式的宝贵见解,包括它们的地理分布、时间分布以及在不同分支中的频率。
  3. 利用 Python 的 pyecharts 库,我们可视化了全球范围内突变的分布和变化。
  4. 通过这些努力,我们能够揭示突变景观,并为每个突变随时间的变化进行可视化追踪。

Investigating the relationship between mutations and alternative non-human animal hosts

调查突变与非人类动物替代宿主之间的关系

Para_06
  1. 每个 SARS-CoV-2 基因组序列的元数据包括宿主信息。
  2. 我们根据序列宿主信息分析了不同非人类动物宿主中突变的分布情况,以了解跨物种传播的情况。
  3. 我们保留了至少出现在三种非人类动物宿主序列中的突变。

Investigating the association between mutations and age, gender and patient status

调查突变与年龄、性别和患者状态之间的关联

Para_07
  1. 我们采用逻辑回归模型来研究突变与患者年龄、性别和状况之间的关联。
  2. 该逻辑回归模型使用R中的glm函数进行。
  3. 具体而言,我们将数据分为不同的年龄段(0-17岁、18-39岁、40-64岁、65-84岁和85岁以上)、性别(女性和男性)以及患者状况(能够行走、已故、居家、住院、轻症和康复),这些分类依据GISAID的标准。
  4. 在分析突变与患者状况之间的关联时,模型包含了突变、患者状况、年龄、性别以及基因序列的来源和采集时间。
  5. 类似地,在分析突变与患者人口统计信息(年龄和性别)之间的关联时,模型结合了突变、患者年龄、性别以及基因序列的来源和采集时间。
  6. 突变变量的P值小于0.001表明,在突变前和突变后的序列比例方面的观察到的差异具有统计学意义,这为否定零假设提供了证据,即不存在差异的假设。

Analyzing the link between mutation sites and natural selection

分析突变位点与自然选择之间的联系

Para_08
  1. 由于正向自然选择的主导作用,基因组中的适应性突变基因不断增多。
  2. 我们使用了默认的SARS-CoV-2(武汉-胡-1)蛋白质注释的RASCL管道来研究每个谱系序列中的SARS-CoV-2基因所受到的自然选择压力。
  3. 具体来说,我们利用HyPhy中的高级分子进化模型进行了分析,包括固定效应似然法(FEL)、混合效应进化模型(MEME)和快速无偏贝叶斯近似法(FUBAR),以检测经历正向选择或负向选择的位点。
  4. 对于FEL和MEME而言,P值小于0.05的位点被认为显著正向选择;而在FUBAR中,则是后验概率大于0.95的位点被视为显著正向选择。

Analyzing the impact of the mutations on protein physicochemical properties

分析突变对蛋白质物理化学性质的影响

Para_09
  1. 参考蛋白序列从 GenBank (登录号 NC_045512.2) 获取。
  2. 通过替换特定位置上的相应氨基酸来生成点突变蛋白序列。
  3. 随后,使用 Expasy ProtParam 服务器 (https://web.expasy.org/protparam/) 分析了蛋白序列的理化性质。
  4. 考察了多种理化性质,包括氨基酸数目、分子量、理论等电点 (pI)、消光系数、疏水指数和平均疏水性 (GRAVY)。
  5. 我们比较了突变前后理化性质的变化,并将超过 10% 的变化视为显著改变。

Analyzing the impacts of mutations on protein stability and function

分析突变对蛋白质稳定性及功能的影响

Para_10
  1. 使用I-Mutant 2.0网络服务器(https://folding.biofold.org/i-mutant/i-mutant2.0.html)来预测突变蛋白序列稳定性变化。
  2. 体外环境模拟采用pH值为7和温度为25°C,而体内环境模拟则采用pH值为7.4和温度为37°C。
  3. 得出的ΔDDG值代表预测的能量变化。
  4. 根据这一预测,I-Mutant判断特定突变是否会增加(ΔDDG > 0)或降低(ΔDDG < 0)蛋白质的稳定性。
  5. 使用MutPred2并采用默认参数来提供氨基酸替换致病性的概率见解。
  6. 得分大于0.5表明致病性的可能性增加。

Analysis of intrinsically disordered regions (IDRs)

内在无序区域(IDRs)的分析

Para_11
  1. SARS-CoV-2的参考蛋白序列从GenBank获得(GenBank登录号NC_045512.2)。
  2. 使用IUPred3的长无序预测模式和默认(中等平滑)参数计算了无序残基的比例。
  3. 预测得分大于0.5的残基被认为是无序的。

Alterations in enzyme cleavage sites induced by mutations

由突变引起的酶切位点的变化

Para_12
  1. 参考蛋白质序列从GenBank获取(GenBank登录号NC_045512.2)。
  2. 通过替换特定位置对应的氨基酸来生成点突变蛋白质序列。
  3. 随后,利用ExPASy服务器上的PeptideCutter工具分析蛋白质序列的潜在切割位点,考虑所有可用的酶和化学物质。
  4. 我们比较了突变前后酶切割位点的变化,并保留了发生改变的位点。

Prediction of antigenicity and immunogenicity of spike protein mutations

预测刺突蛋白突变的抗原性和免疫原性

Para_13
  1. 刺突蛋白序列从GenBank获得(GenBank登录号NC_045512.2)。
  2. 定点突变蛋白序列是通过在特定位置替换相应氨基酸产生的。
  3. 使用VaxiJen 2.0服务器预测刺突蛋白的抗原性(选择的目标生物体为"病毒")。
  4. 预测得分超过0.5的抗原被认为是候选抗原。
  5. 通过IEDB I类免疫原性工具检查刺突蛋白突变的MHC-I免疫原性(采用默认参数,即N端、C端和第二个氨基酸)。
  6. MHC I免疫原性得分大于0表明更有可能刺激免疫反应。
  7. 对于显著影响抗原性或免疫原性的突变,我们认为抗原性或免疫原性得分绝对变化超过所有位点中位绝对变化三倍以上的突变为重要突变。

Analyzing the impacts of mutations on viral transmissibility by altering the affinity between receptor binding domain (RBD) and ACE2 receptor

通过改变受体结合域(RBD)与ACE2受体之间的亲和力来分析突变对病毒传播性的影响

Para_14
  1. 我们利用深度突变扫描(DMS)方法的结果来实验测量所有可能的SARS-CoV-2受体结合域(RBD)氨基酸突变如何影响ACE2结合亲和力。
  2. 一个正的结合亲和力变化值(Δlog10(KD, app) > 0)表明由于突变导致RBD与ACE2受体之间的亲和力增加。
  3. 相反,一个负值(Δlog10(KD, app) < 0)表示由于突变导致RBD与ACE2受体之间的亲和力降低。
  4. 我们使用了t检验来确定这种变化的显著性,其中P值<0.05表示突变后RBD与ACE2之间的亲和力发生了显著变化

Analyzing the impacts of mutations on immune escape by altering the affinity between RBD and antibody/serum

通过改变RBD与抗体/血清之间的亲和力来分析突变对免疫逃逸影响

Para_15
  1. 深度突变扫描可以系统地测量所有可能的氨基酸突变在刺突蛋白关键区域对单克隆抗体或血清抗原性影响。
  2. 我们利用深度突变扫描实验的结果前瞻性地测量病毒突变如何影响抗体结合或中和。
  3. 我们收集的数据包括RBD抗体1至4类(第1类——阻断ACE2且仅与开放构象RBD结合,第2类——阻断ACE2且与开放及闭合构象RBD结合,第3类——不阻断ACE2且与开放及闭合构象RBD结合,第4类——不阻断ACE2且仅与开放构象RBD结合),康复者血浆以及接种疫苗后血清,以考察突变位点对免疫逃逸的影响。
  4. 数值0表示变异体始终与抗体结合,而数值1意味着变异体始终逃避抗体结合。
  5. 逃逸分数大于0.1(最大分值1的10%)的突变被归类为逃逸突变。

Analyzing the co-mutation patterns of SARS-CoV-2

分析SARS-CoV-2的共突变模式

Para_16
  1. 我们在2735个病毒谱系类别中计算了两个突变位点之间的相关性,旨在探究它们的相关程度。
  2. 每个序列包含不同的突变位点信息。
  3. 首先,我们处理了序列并构建了一个透视表。
  4. 在透视表中,每一行代表一个样本,每一列代表一个突变位点。
  5. 表格中的值为0或1,表示每个样本是否具有相应的突变。
  6. 最后,我们计算了不同突变位点之间的斯皮尔曼相关系数。
  7. 我们使用了霍尔姆-邦费罗尼方法进行多重检验校正。
  8. 我们保留了相关系数大于0.6或小于-0.6的突变对,以及经过霍尔姆-邦费罗尼校正后的P值小于0.05的突变对

Manual curation of mutation-related literature from PubMed

从PubMed手动整理与突变相关的文献

Para_17
  1. 2023年7月29日,我们在PubMed上进行了搜索,以检索与突变相关的文献。
  2. 以D614G(S)为例,使用了以下查询:('COVID-19'[标题/摘要] 或 'SARS-CoV-2'[标题/摘要]) 并且 ('1841A > G'[标题/摘要] 或 'Asp614Gly'[标题/摘要] 或 'D614G'[标题/摘要])。
  3. 搜索结果手动筛选以确保相关性。

Web interface and analysis results

Database overview

数据库概览

Para_18
  1. 在这项研究中,我们从GISAID汇编了一个包含超过130亿条SARS-CoV-2基因组序列的巨大数据集,同时还包括每条序列的相关元数据。
  2. 这个庞大的基因组集合跨越了从2019年12月到2023年2月的时间范围。
  3. 这些基因组序列代表了来自35种不同宿主物种、218个独特地理区域的2735种病毒谱系的丰富多样性,如图1A和B所示。
  4. 元数据文件包含了关键信息,包括来源地区、采集日期、提交日期和谱系,以及宿主的状态、年龄和性别。


  • 图 1. 数据分布概览。(A) 序列在全球 218 个地区的分布情况。(B) 所有基因组序列的来源。(C) SARS-CoV-2 基因组中的 9832 个突变的分布。纵轴代表不同突变的数量。(D) 在 9832 个突变中,通过 FEL、MEME 和 FUBAR 方法检测到的正向选择突变。(E) 非人类动物宿主中的突变在整个 SARS-CoV-2 基因组中的分布。纵轴代表携带每个突变的序列数量。
Para_19
  1. 我们分析了每一种SARS-CoV-2基因组中的突变,并在过滤后确定了9832种常见突变。
  2. 与其他突变相比,这些突变显示出显著的适应性和传播性,表明它们在进化和生物学意义上具有优势。
  3. 这些突变在SARS-CoV-2基因组中的分布如图1C所示,详细的突变列表可在补充表S2中找到。
  4. 随后,我们通过整合序列信息和元数据对这9832种常见突变进行了广泛的功能注释。
Para_20
  1. COV2Var的整体架构如图2所示。
  2. 对于9832个个体SARS-CoV-2突变,我们研究了它们在218个地理区域中的分布、时间变化以及在2735个谱系中的频率模式,以了解它们对进化动态的影响。
  3. 我们还研究了突变与不同年龄、性别和状态患者的关联。
  4. 在分析的9832个突变中,429个与患者性别相关,1593个与患者状态相关,2762个与患者年龄相关。
  5. 通过分析突变与35种不同的非人类动物宿主之间的关系,我们揭示了突变对病毒适应性和跨物种传播的影响。
  6. 在非人类动物宿主中共检测到1658个突变。
  7. 研究突变对蛋白质稳定性、功能机制、酶切位点和理化性质的影响为我们提供了有关它们结构和功能含义的宝贵见解。
  8. 探索棘突蛋白突变对抗原性和免疫原性的影响有助于了解免疫反应。
  9. 利用DMS实验数据揭示RBD与ACE2受体之间相互作用的影响,有助于理解这些影响对病毒传播性的作用。
  10. 其中已确定44个突变增强了RBD与ACE2受体之间的结合亲和力。
  11. 利用DMS实验数据研究RBD与抗体/血清之间的相互作用,以了解逃避宿主免疫反应的情况。
  12. 为此分析共收集了1504条抗体/血清数据。
  13. 我们研究了SARS-CoV-2在2735个病毒谱系中的共突变模式,以揭示不同突变对遗传变异和疾病表型的协同效应。
  14. 我们通过PubMed搜索整理了9832个常见突变。
  15. 其中,615个突变在2587篇论文中被报道过,与COVID-19进展中的关键作用相关联。


  • 图 2. COV2Var 流程概览。(A) 导致 9832 种常见突变的突变分析工作流程。(B) 9832 个体中常见突变的主要类别。(C) COV2Var 网站的界面和架构。

Association of mutations with age, gender and patient status

突变与年龄、性别和患者状态之间的关联

Para_21
  1. 先前的研究已报告了特定突变与患者年龄、性别分布及患者状态变化之间的关联。
  2. 在本研究中,我们将突变和患者信息(包括年龄、性别和患者状态)进行了整合,以更好地理解这些潜在的相关性。
  3. 在分析的9832个突变中,我们发现了429个与患者性别相关的突变,1593个与患者状态相关的突变,以及2762个与患者年龄相关的突变。
  4. 例如,P4715L(ORF1ab)和D614G(S)等突变已被证明与较高的死亡率相关联。
  5. 相反地,P13L(N)、Y789Y(S)、L37F(ORF10)和L6420L(ORF1ab)等突变被推测与较低的死亡率相关联。
  6. 此外,S24L(ORF8)突变似乎在女性中更为常见。
  7. D614G(S)突变被发现与男性性别及较高年龄有关。
  8. 这些观察到的趋势与我们的研究结果一致。

Natural selection sites

自然选择位点

Para_22
  1. 检测和量化进化压力揭示了大多数SARS-CoV-2密码子处于强烈的正向或负向选择之下。
  2. 正向选择可以逐渐增加病毒群体中的特定突变,因为这些突变可能会增强病毒的适应性、传播能力和抗药性。
  3. 在这里,我们对2735个谱系分别进行了选择压力分析,并确定了共有4372个位点受到正向选择压力。
  4. 其中,MEME识别出3368个位点,FEL识别出1778个位点,FUBAR识别出3624个位点,而FEL、MEME和FUBAR的组合识别出1650个位点(图1D)。
  5. 处于正向选择下的突变有利于病毒的生存。
  6. 例如,位置L18(S)、L382(ORF1ab)、K417(S)、N501(S)、H655(S)和P681(S)之前已被报道处于正向选择之下,可能具有潜在的重要适应性影响。
  7. 这些适应性突变通常是潜在的药物靶点。

Distribution in non-human animal hosts

在非人类动物宿主中的分布

Para_23
  1. 当前的研究表明,SARS-CoV-2 可以进行跨物种传播。
  2. 已经报告了几起不同人类变种的 SARS-CoV-2 感染动物的案例,影响了包括宠物、家畜和野生动物在内的广泛物种。
  3. 据报道,仓鼠被感染后又将病毒传回给人类,可能引发通过人际传播蔓延的疫情。
  4. 在本研究中,我们调查了非人类宿主中的突变分布情况,以深入了解跨物种传播事件的可能性。
  5. 在非人类宿主中共鉴定出 1658 个突变位点,涵盖 29 种不同的物种。
  6. 这些 1658 个突变的基因组分布如图 1E 所示。
  7. 其中,一些突变,例如 Y453F(S)、F486L(S)和 N501T(S),据报道有助于 SARS-CoV-2 适应感染鼬科动物。
  8. 跨物种病毒传播在病毒变异的进化和出现中起着关键作用。
  9. 分析非人类动物中的突变提供了对潜在跨物种传播可能性的认识,并增强了早期预警能力

Distribution of mutation on IDRs

IDRs上的突变分布

Para_24
  1. 固有无序区域是指没有独特三维结构的蛋白质区域。这些蛋白质的高度动态无序区域与重要的现象有关,包括酶催化和别构调控,以及诸如细胞信号传导和转录等关键生理功能。
  2. 在病毒蛋白中,无序区域中的突变对于免疫逃避和抗体逃逸至关重要,这暗示了对疫苗和单克隆治疗策略可能存在的额外影响。
  3. 总共发现了9533个突变位点位于蛋白质编码区域内(跨越12个GenBank蛋白质序列)。
  4. 其中,735个位点位于固有无序区域内,分布在五个蛋白中:ORF1a(15.8%)、ORF1ab(0.8%)、S(10.6%)、ORF3a(4.1%)和N(68.7%)。
  5. 这与SARS-CoV-2核蛋白中IDRs的丰富性一致。
  6. IDRs在增加结合亲和力和增强别构结合方面发挥特殊作用,使N蛋白能够高度协同地结合RNA。
  7. Azad的研究表明,在N蛋白的IDRs中有大量突变,并且多个突变导致该蛋白功能发生显著变化。
  8. 深入了解固有无序区域的结构将为高通量筛选提供宝贵的知识,以便识别与生物过程和功能相关的重大突变位点。

Associations of mutations with protein stability and function

突变与蛋白质稳定性及功能的相关性

Para_25
  1. 共有5348个错义突变接受了蛋白质稳定性和功能分析。
  2. 使用I-Mutant预测突变对蛋白质稳定性的影响。
  3. 蛋白质稳定性分析表明,在体外和体内环境中,1029个突变增强了蛋白质的稳定性。
  4. 相反,在体外和体内环境中,4175个突变降低了蛋白质的稳定性。
  5. 例如,像L452R和N501Y这样的突变有助于提高S蛋白的稳定性。
  6. 我们的结果与这些研究一致。
  7. 使用MutPred对所有点突变进行了功能分析。
  8. 总共发现254个突变影响了蛋白质的功能性。

Associations of mutations with antigenicity and immunogenicity

突变与抗原性和免疫原性的关联

Para_26
  1. 除了刺突蛋白在病毒进入细胞过程中发挥的关键作用外,它还可以在病毒感染期间刺激免疫反应。
  2. 研究揭示了刺突糖蛋白作为抗原区域的潜力。
  3. 在671种S蛋白突变中,99种表现出显著改变的抗原性,27种显示出显著变化的免疫原性。
  4. 具体来说,共有99种突变导致抗原性得分变化超过0.0102(是各位置中位数的3倍)。
  5. 27种突变导致免疫原性得分变化超过0.2754(是各位置中位数的3倍)

Impact of mutations on the affinity between RBD and ACE2 receptor

突变对RBD与ACE2受体之间亲和力的影响

Para_27
  1. 刺突蛋白通过受体结合域(RBD)与ACE2结合,介导病毒进入宿主细胞。
  2. 共鉴定出39个突变位点表现出RBD与ACE2之间结合亲和力的变化。
  3. 发现RBD氨基酸K417、E484、L452、F486、Y489、Q493、N501和Y505位点的突变增强了该蛋白与ACE2受体的亲和力。
  4. 我们的结果与这些研究一致。
  5. 深度突变扫描对于评估突变引起的ACE2结合变化具有预测价值,有助于更好地理解病毒的传播能力。

Impact of mutations on the affinity between receptor-binding domain of the spike protein and antibody/serum

突变对刺突蛋白的受体结合域与抗体/血清之间亲和力的影响

Para_28
  1. 据报道,大约90%的血浆或血清中和抗体活性针对的是刺突受体结合域(RBD)。
  2. 不幸的是,刺突蛋白的快速进化导致了血清中和效力的下降,并促进了对大多数单克隆抗体的逃避。
  3. 深度突变扫描系统地评估了RBD关键区域内氨基酸突变对单克隆抗体或血清的影响。
  4. 为此分析收集了总共1504项抗体/血清数据,并鉴定了114种突变。
  5. 其中,64个突变位点显示出强大的免疫逃逸潜力,至少在10种不同的抗体或血清中观察到了免疫逃避。
  6. 例如,E484K(S)、A475V(S)、L452R(S)、V483A(S)和F490L(S)已被鉴定为一种逃避突变,在暴露于单克隆抗体或康复者血浆时出现。
  7. 了解这些免疫逃逸突变对于评估对抗病毒的治疗方法和疫苗的有效性至关重要

Co-mutation patterns

共变异模式

Para_29
  1. 相关系数可以衡量两个突变位点在样本中的变异趋势相似性,从而表明它们是否共存或共同消失。
  2. 突变位点的相关性分析有助于我们理解某些突变之间是否存在紧密的关系或相互作用。
  3. 在本研究中,我们计算了2735个谱系中每个谱系的9832个突变位点之间的相关性。
  4. 根据相关性分析,9832个突变与至少一个其他突变存在相关性。
  5. 总共,我们确定了1,193,386对正相关和37,068对负相关。
  6. 其中,许多相关性以前已有报道。
  7. 例如,R203K (N) 和 G204R (N) 突变经常组合出现,导致N蛋白的整体结构稳定性和灵活性降低。
  8. D614G (S) 和 P4715 (ORF1ab) 展现出共存现象,显示两种不同蛋白质间的突变具有高相关性。
  9. 同义突变 F924F (ORF1a) 被观察到与其他突变共存,包括241C > T (-25C > T in ORF1a),P4715L (ORF1ab) 和 D614G (S)。
  10. 分析共突变模式有助于理解突变之间的相互依赖和排斥关系

Exploring the differences of S protein N501Y and N501T mutations using COV2Var

使用COV2Var探索S蛋白N501Y和N501T突变的差异

Para_30
  1. 截至目前,世界卫生组织已指定了五种值得关注的变异株:Alpha(B.1.1.7)、Beta(B.1.351)、Gamma(P.1)、Delta(B.1.617.2)和Omicron(B.1.1.529)。
  2. 位于S蛋白受体结合域的N501Y突变在这五种变异株中普遍存在。
  3. 在我们的研究中,我们在N501位点发现了两种常见的突变:N501Y和N501T。
  4. 大约45.7%的SARS-CoV-2变异株携带N501Y突变,而N501T突变仅在约0.00043%的变异株中被发现。
  5. 这表明N501Y突变相对普遍且分布广泛。
  6. 我们进行了深入的研究来分析导致N501Y和N501T不同发生率的因素。


  • 图3. 对SARS-CoV-2刺突蛋白中N501Y和N501T突变的比较分析。(A) 含N501Y突变序列的时间动态。(B) 含N501T突变序列的时间动态。(C) 在B.1.6亚系中携带N501Y或N501T突变的序列计数。(D) N501Y和N501T突变对ACE2结合亲和力的比较。(E) N501Y和N501T突变免疫逃逸能力的比较。
Para_31
  1. 值得注意的是,在B.1.604谱系内,我们观察到了N501T和N501Y突变的同时存在,这两种突变之间表现出强烈的负相关关系(相关系数:-0.63,Holm-Bonferroni校正P值<0.05)。
  2. N501Y占B.1.604谱系群体的87%,而N501T占比为5.56%(图3C)。
  3. 为了探索竞争关系,我们研究了围绕B.1.604谱系的B.1.6亚谱系。
  4. B.1.6内的亚谱系具有不同的突变,其中一些只携带N501Y(例如B.1.621.1、B.1.605和B.1.621),其他的要么只携带N501T(B.1.609和B.1.626),要么两者都有(B.1.604)(图3C)。
  5. B.1.6亚谱系中N501Y和N501T突变的这种多样化分布是显而易见的。
  6. B.1.621谱系显示出N501Y的最高流行率。
  7. 它的频率比其他携带N501Y或N501T突变的亚谱系高出6.16到2212.83倍。
  8. 在B.1.621分支中,只有一个突变E484K与N501Y呈现出强烈的正相关关系(相关系数:0.81,Holm-Bonferroni校正P值<0.05),但与N501T没有关联。
  9. E484K被认为是暴露于单克隆抗体(mAbs)、mAbs组合及康复者血浆时出现的一种逃逸突变。
  10. 此外,N501Y和E484K的共存经常出现在关注变异株(VOCs)中。
  11. 这表明E484K的存在增强了N501Y相对于N501T的竞争优势。
Para_32
  1. 我们还探讨了其他可能促成N501Y和N501T突变之间差异的因素。
  2. 使用DMS实验数据,N501Y突变显示出对ACE2受体增强的RBD亲和力(图3D),这有助于提高N501Y的传播性。
  3. 与参考序列相比,N501Y保持不变的抗原性和免疫原性,而N501T显示增强的抗原性而不影响免疫原性。
  4. 根据Fisher检验P值大于0.05的结果,N501Y和N501T之间在抗体逃逸能力上没有差异(图3E)。
  5. 我们进一步整合了序列元数据进行综合分析。
  6. 携带N501Y突变的患者表现出显著的恢复改善,从26.56%提高到32.88%。
  7. 相反,携带N501T突变的患者经历了更差的结果,死亡率从7.14%上升到23.08%。
  8. N501Y在年轻人中更为普遍,这与先前研究提出的在年轻群体中发生率更高的观点一致。
  9. 值得注意的是,N501Y和N501T之间存在显著的ΔDDG差异,N501Y在体内和体外都更加稳定。
  10. N501Y和N501T都在不同的非人类宿主中被识别出来,这与文献相符,并暗示了对病毒适应性和跨物种传播的潜在影响。
  11. 在非人类宿主中,携带N501Y突变的序列占13.3%,而带有N501T突变的序列占8.4%。
  12. 这表明N501T对非人类宿主更为有利。
  13. 据报道,N501T突变促进了SARS-CoV-2感染非人类宿主的适应性。
  14. 通过利用COV2Var,我们进行了N501Y和N501T突变之间的比较分析,揭示了这两个突变在人类中突变频率显著差异的潜在原因

Exploring the latest XBB.1.16* variants with COV2Var

利用COV2Var探索最新的XBB.1.16*变异株

Para_33
  1. 目前,SARS-CoV-2 奥密克戎 XBB 变异株的一些谱系及其后代谱系(例如 XBB.1.5、XBB.1.9 和 XBB.1.16*)已成为全球主要流行株。星号符号代表子谱系。例如,XBB.1.5 指的是 XBB.1.5 本身及其相关的子谱系。
  2. 世界卫生组织(WHO)已将 XBB.1.5、XBB.1.9 和 XBB.1.16* 列为监测中的变异株(https://www.who.int/en/activities/tracking-SARS-CoV-2-variants)。
  3. 根据美国疾控中心(CDC)最新数据(https://covid.cdc.gov/covid-data-tracker/#variant-proportions),截至 2023 年 7 月底,XBB.1.16 已成为美国的主要毒株,迅速达到 32.9% 的流行率(图 4A)。
  4. 这超过了 XBB.1.5(17.2%)和 XBB.1.9(17.6%)的比例,表明 XBB.1.16 变异株相比另外两个变异株具有更高的潜在传播率。
  5. 重要的是,根据全球共享流感数据倡议组织(GISAID)的突变位点数据(https://gisaid.org/lineage-comparison/),XBB.1.16* 变异株展现出显著的特征性突变,包括 L3829F(ORF1a)、G18703T(ORF1b 中的 D1746Y 或 ORF1ab 中的 D6147Y)、E180V(S)和 T478R(S)(图 4B),这些突变使其区别于 XBB.1.5* 和 XBB.1.9* 变异株。
  • 图4. 使用COV2Var探索最新变种XBB.1.16。(A) XBB.1.5、XBB.1.16和XBB.1.19变种的序列计数随时间的变化动态。(B) XBB.1.5、XBB.1.16和XBB.1.19*变种之间的突变差异。(C) SARS-CoV-2刺突蛋白中的T478位点。SARS-CoV-2受体结合域显示为黄色,ACE2显示为绿色。品红色区域代表ACE2结合界面,而青色区域表示受体结合域结合界面。(D) XBB.1谱系中携带D1746Y突变的序列频率随时间的变化。
Para_34
  1. L3829F突变位于病毒的ORF1a基因中。多项研究已经报告了这一突变,主要只是列出了L3829F突变,而没有提供其影响的充分细节。
  2. 有一项研究指出L3829F处于正向选择之下,这对病毒的生存有利。
  3. 我们的结果也支持这一点,表明L3829位点处于正向选择之下。
  4. 此外,我们发现携带L3829F突变的变异株与感染后更高的住院率相关(P值小于0.001)。
  5. 这与对XBB.1.16*的观察一致,该变异株的住院率显著高于其他奥密克戎变异株。
  6. L3829F突变增强了ORF1a蛋白的稳定性和体内外的稳定性(ΔDDG大于0)。
  7. SARS-CoV-2中的ORF1a基因编码病毒复制复合体,这对于病毒复制和转录至关重要。
  8. 此外,在非人类宿主如Felis catus、Mesocricetus auratus、Mus musculus、Neovison vison和Odocoileus virginianus中也发现了L3829F突变。
Para_35
  1. 与XBB.1.5和XBB.1.9相比,XBB.1.16*变异株在其刺突蛋白中拥有E180V和T478R突变。
  2. XBB.1.5和XBB.1.9带有T478K突变,而XBB.1.16*则具有T478R突变。
  3. 值得注意的是,第478位位于刺突蛋白与ACE2受体结合位点内(图4C)。
  4. 然而,T478R和T478K突变之间ACE2结合亲和力没有显著差异(P值 > 0.05),这与文献一致,表明XBB.1.16和XBB.1.5的刺突蛋白在传染性方面具有相似特性。
  5. T478R和T478K突变在抗原性和免疫原性方面没有区别。
  6. E180V与参照物相比,在抗原性和免疫原性方面也没有差异。
  7. XBB.1.16和XBB.1.5在逃避体液免疫的能力上表现出相似特征。
  8. 值得注意的是,在比较T478R和T478K突变时,T478R(ΔDDG > 0)增强了S蛋白的稳定性,而T478K(ΔDDG < 0)降低了其稳定性。
  9. E180V(ΔDDG > 0)也增强了S蛋白的稳定性。
Para_36
  1. D1746Y突变位于ORF1b基因中,该基因编码依赖RNA的RNA聚合酶(RdRp),这是病毒复制的关键成分。
  2. 尽管目前尚不清楚这种突变如何影响病毒的致病性,但有人提出D1746Y突变可以增加蛋白质的稳定性(ΔDDG > 0),从而提高其复制速率。
  3. 我们的结果显示D1746Y突变正经历正向选择,这对病毒的生存有利。
  4. XBB.1.16是XBB.1的一个亚分支。
  5. 携带D1746Y突变的序列占XBB.1谱系所有XBB.1序列的0.12%。
  6. 在XBB.1中,携带D1746Y突变的序列频率显著增加。
  7. 这表明D1746Y突变在XBB.1谱系中的适应性。
  8. 在XBB.1内,D1746Y突变与另外两个突变E180V和D371D之间表现出强烈的正相关关系(相关系数 > 0.6,Holm-Bonferroni校正P值 < 0.05)。
  9. E180V突变也是XBB.1.16的一个特征。
  10. 由于XBB.1.16和XBB.1.5的刺突蛋白在感染性和逃避体液免疫的能力方面表现出相似的特点,XBB.1.16适应性的增强可能归因于非刺突蛋白中的突变。
  11. D1746Y突变可能在XBB.1.16适应性增强中发挥重要作用
Para_37
  1. XBB.1.16是一种新识别的变异体,在我们的数据收集完成后出现。与XBB.1.5和XBB.1.9不同,XBB.1.16变异体中所有独特的突变都被包含在这9832种常见突变之中。
  2. SARS-COV2采取了一种生存策略,通过缓慢接受新的突变,并依赖于组合突变来维持。
  3. 通过利用COV2Var,我们可以评估新出现变异体中突变的功能影响,有助于描述这些新型变异体的特点。

Discussion

Para_38
  1. COV2Var是首个且独一无二的数据库,系统地分析了超过130亿条SARS-CoV-2基因组序列及其元数据。
  2. 我们确定了9832种具有竞争优势的常见突变。
  3. 这些突变比其他突变表现出更高的适应性和传播能力,突显了它们在进化中的优势作用及生物学意义。
  4. 随后,我们通过整合序列和元数据信息,对总共9832个常发突变位点进行了全面的功能注释。
  5. 利用COV2Var,我们可以揭示N501Y与N501T突变在人类中显著不同的突变频率的潜在原因。
  6. 例如,E484K突变有助于增强N501Y的竞争优势。
  7. N501Y突变增强了受体结合域(RBD)对ACE2受体的亲和力,从而增加了N501Y的传播性。
  8. 而N501T突变则显示出了对非人类动物宿主更大的适应性。
  9. 此外,我们还使用COV2Var研究了新出现的变异株XBB.1.16*。
  10. 相较于XBB.1.5,XBB.1.16*显示出四种独特的突变。
  11. D1746Y突变可能在提高XBB.1.16的适应性方面发挥着关键作用。
  12. L3829F突变与更高的住院率相关联。
  13. 此外,T478R和E180V突变有助于刺突蛋白的稳定性增强。
  14. 我们的数据库将成为评估SARS-CoV-2突变影响以及深入了解变异株特性的独特而全面资源。
  15. 为了保持COV2Var作为COVID-19突变注释数据库的领先地位,我们将持续获取并整合新的数据更新到我们的数据库中。

Data availability

Para_39
  1. 我们从GISAID(https://gisaid.org/)检索了基因组序列和元数据。
  2. 关于所使用GISAID数据的详细信息可以在https://doi.org/10.55876/gis8.230705yx找到。

Supplementary data

Para_40
  1. 补充数据可在 NAR 在线获取。

本文由mdnice多平台发布

上一篇下一篇

猜你喜欢

热点阅读