生物信息数据质控详解（全基因组）第一辑

2021-06-11 本文已影响0人超级宇航员

目标

全基因组关联研究 (GWAS) 在鉴定单核苷酸多态性 (SNP) 和表型特征之间的关联方面变得越来越流行。GWAS 方法通常应用于社会科学。但是，需要仔细进行统计分析，并且需要使用专用的遗传学软件。本教程旨在为进行遗传分析提供指导。

方法

我们讨论和解释关键概念，并说明如何使用通过 https://gitee.com/apexone/GWA_tutorial提供的示例脚本进行 GWAS 。

除了标准 GWAS 的说明外，我们还将展示如何应用多基因风险评分 (PRS) 分析。PRS 的目的不是识别单个 SNP，而是聚合来自整个基因组的 SNP 的信息，以提供个体水平的遗传风险评分。

结果

本教程中将说明的模拟数据和脚本提供了遗传分析的动手实践。这些脚本基于 PLINK、PRSice 和 R，它们是可供新手用户访问的常用、免费提供的软件工具。

结论

通过提供理论背景和实践经验，我们旨在让未经该领域正式培训的研究人员更容易接触到 GWAS。

1.开始吧我们

在过去的 20 年中，人们对调查遗传风险因素对人类行为变异的影响越来越感兴趣。进行基因研究所需的技术和分析工具越来越容易获得。这种增加的可及性提供了巨大的希望，因为遗传学领域以外的研究人员可能会为该领域带来新的专业知识（例如，对精神病学特征的疾病分类学有更深入的了解）。然而，以正确的方式进行遗传关联研究需要特定的遗传学、统计学和（生物）信息学知识。本文旨在通过介绍关键概念和共享可用于数据分析的脚本，为进行遗传分析提供指导。

全基因组关联研究 (GWAS) 的目的是确定单核苷酸多态性( SNPs；参见方框1：有关在整个手稿中以粗体印刷的所有术语的解释)，其中等位基因频率作为函数系统地变化表型特征值的差异（例如，在精神分裂症病例和健康对照之间，或在神经质得分高与低的个体之间）。性状相关 SNP 的鉴定可能随后揭示对这些表型背后的生物学机制的新见解。技术进步允许调查分布在整个基因组中的大量 SNP 的影响。

Clumping：这是一个过程，其中仅识别和选择每个 LD 块中最重要的 SNP（即最低p值）以进行进一步分析。这降低了剩余 SNP 之间的相关性，同时保留了具有最强统计证据的 SNP。
共同遗传性：这是衡量疾病之间遗传关系的指标。基于 SNP 的共同遗传力是由 SNP 解释的疾病对（例如精神分裂症和双相情感障碍）之间的协方差比例。
基因：这是 DNA 中编码分子（例如蛋白质）的核苷酸序列
杂合性：这是携带特定 SNP 的两个不同等位基因。个体的杂合率是杂合基因型的比例。个体内高水平的杂合性可能表明样本质量低，而低水平的杂合性可能是由于近亲繁殖。
个体水平缺失：这是特定个体缺失的 SNP 数量。高度缺失可能表明 DNA 质量不佳或存在技术问题。
连锁不平衡 (LD)：这是对给定群体中同一染色体不同位点等位基因之间非随机关联的衡量。当 SNP 等位基因的关联频率高于随机分类下的预期时，SNP 处于 LD 状态。LD 关注 SNP 之间的相关性模式。
次要等位基因频率 (MAF)：这是在特定位置出现频率最低的等位基因的频率。大多数研究不足以检测与低 MAF 的 SNP 的关联，因此排除了这些 SNP。
人口分层：这是研究中存在多个亚群（例如，具有不同种族背景的个体）。由于等位基因频率在亚群之间可能不同，因此群体分层可能导致假阳性关联和/或掩盖真实关联。一个很好的例子是筷子基因，由于种群分层，SNP 占用筷子进食能力差异的近一半（Hamer & Sirota，2000）。
修剪：这是一种选择处于近似连锁平衡的标记子集的方法。在 PLINK 中，该方法使用染色体特定窗口（区域）内 SNP 之间的 LD 强度，并根据用户指定的 LD 阈值仅选择近似不相关的 SNP。与结块相反，修剪不考虑SNP的p值。
相关性：这表明一对个体在遗传上的相关性有多强。传统的 GWAS 假设所有受试者都是不相关的（即，没有任何一对个体比二级亲属更密切相关）。如果没有适当的校正，包括亲属可能会导致对 SNP 效应大小的标准误差的估计有偏差。请注意，已经开发了用于分析家庭数据的特定工具。
性别差异：这是指定性别与基于基因型确定的性别之间的差异。差异可能表明实验室中的样品混淆。请注意，只有在评估了性染色体（X 和 Y）上的 SNP 后才能进行此测试。
单核苷酸多态性 (SNP)：这是发生在基因组特定位置的单个核苷酸（即 A、C、G 或 T）的变异。SNP 通常以两种不同的形式存在（例如，A 与 T）。这些不同的形式称为等位基因。具有两个等位基因的 SNP 具有三种不同的基因型（例如，AA、AT 和 TT）。
SNP-heritability：这是分析中所有 SNP 解释的性状表型变异的分数。
SNP 级缺失：这是样本中特定 SNP 信息缺失的个体数量。具有高度缺失的 SNP 可能会导致偏差。
统计汇总：这些是进行 GWAS 后获得的结果，包括有关染色体数量、SNP 位置、SNP(rs)-标识符、MAF、效应大小（比值比/β）、标准误差和p值的信息。GWAS 的汇总统计数据通常可以免费访问或在研究人员之间共享。
哈代-温伯格 (dis) 平衡 (HWE) 定律：这涉及等位基因和基因型频率之间的关系。它假设一个无限大的种群，没有选择、突变或迁移。法律规定基因型和等位基因频率在几代人中是恒定的。违反 HWE 定律表明基因型频率与预期显着不同（例如，如果等位基因 A 的频率 = 0.20 和等位基因 T 的频率 = 0.80；基因型 AT 的预期频率为 20.20.8 = 0.32）和观察到的频率不应有显着差异。在 GWAS 中，通常假设与 HWE 的偏差是基因分型错误的结果。病例中的 HWE 阈值通常不如对照中的严格，因为在病例中违反 HWE 法可能表明与疾病风险的真正遗传关联。

2. 软件

QC 程序和统计分析将使用免费、开源的全基因组关联分析工具集 PLINK 1.07 版（Purcell 等人，2007 年）进行说明，可从http://zzz.bwh.harvard.edu/plink下载/ . PLINK 1.9 测试版包含相同的选项，但速度要快得多https://www.cog-genomics.org/plink/1.9/. 由于 PLINK 1.9 目前是测试版，我们在本教程中使用了官方 PLINK 版本。但是，也可以使用 PLINK 1.9 完成所有教程。尽管本文中讨论的某些步骤可以在 R 等传统统计软件包中执行，但专门用于分析遗传数据的软件包使用起来要方便得多。除了 PLINK 之外，还有许多其他不错的选择可用于分析 SNP 数据，例如 Genabel（Aulchenko、Ripke、Isaacs 和 Van Duijn，2007 年）和 SNPTEST（Marchini、Howie、Myers、McVean 和 Donnelly，2007 年） . 此外，还开发了允许在基于家庭的 GWAS 中测试关联的方法（Chen & Yang，2010; Ott、Kamatani 和 Lathrop，2011 年）。我们建议使用基于 GNU/Linux 的计算机资源，尽管许多选项也可以通过 Windows 版本的 PLINK 获得。可以在http://www.ee.surrey.ac.uk/Teaching/Unix上找到对 shell 和命令行的基本介绍。GitHub 示例脚本生成的所有图形都将使用免费的开源编程语言 R ( https://www.r-project.org/ ) 获得。

2.1. 数据格式

PLINK 可以读取文本格式的文件或二进制文件。由于读取大型文本文件可能很耗时，因此建议使用二进制文件。文本 PLINK 数据由两个文件组成：一个包含关于个体及其基因型的信息 (.ped)；另一个包含有关遗传标记的信息（.map；见图 1）。相比之下，二进制 PLINK 数据由三个文件组成，一个包含个体标识符 (ID) 和基因型 (.bed) 的二进制文件，以及两个包含个体 (.fam) 和遗传标记信息的文本文件 ( .bim；见图 1）。例如，在双相情感障碍的研究中，.bed 文件将包含所有患者和健康对照的基因分型结果；*.fam 文件将包含与受试者相关的数据（与研究中其他参与者的家庭关系、性别和临床诊断）；而 *.bim 文件将包含有关 SNP 物理位置的信息。使用协变量的分析通常需要第四个文件，其中包含每个人的这些协变量的值（见图 1）。

MPR-27-e1608-g001.jpg

2.2. 基本的PLINK命令

具体命令见前几个推文

3. 基因数据质量控制

应该成为任何 GWAS 一部分的一个重要步骤是使用适当的 QC。如果没有广泛的 QC，GWAS 将不会产生可靠的结果，因为原始基因型数据本质上是不完美的。数据中的错误可能有多种原因，例如，由于 DNA 样本质量差、DNA 与阵列的杂交不佳、基因型探针性能不佳以及样本混淆或污染。例如，未能彻底控制这些数据问题导致 Sebastiani 等人发表的一篇文章被撤回。( 2010 ) in Science (Sebastiani et al., 2010 , 2011 ; Sebastiani et al., 2012 ; Sebastiani et al., 2013）。被撤回的文章的结果受到 Illumina 610 阵列技术错误和质量控制不足的影响。尽管经过适当的 QC 后主要科学发现仍然得到支持，但新分析的结果偏差很大，以至于作者决定撤回该文章。

3.1. 使用HapMap数据进行数据模拟

为了能够使用真实的遗传数据说明所有分析步骤，我们使用来自国际 HapMap 项目 ( http://hapmap.ncbi.nlm.nih)的公开数据模拟了一个具有二元结果度量的数据集 ( N = 207) 。 gov/downloads/genotypes/2010-05_phaseIII/plink_format/；Gibbs 等人，2003）。在本教程中，为了创建种族同质的数据集，我们只包括来自北欧和西欧 (CEU) 血统的犹他州居民。由于 HapMap 数据的样本量相对较小，这些模拟中的遗传效应大小设置为比通常在复杂性状遗传研究中观察到的值大。需要注意的是，检测复杂性状的遗传风险因素需要更大的样本量（例如，至少在数千，甚至可能是数万或数十万）。可以在https://github.com/MareesAT/GWA_tutorial/ (1_QC_GWAS.zip)找到具有模拟表型特征的 HapMap 数据。

3.2. QC步骤概述

由于 GWAS 所面临的挑战，我们旨在说明基本的 QC 步骤并提供示例脚本。阈值可能会根据研究的具体特征而有所不同。七个 QC 步骤包括基于以下因素过滤掉 SNP 和个体：(1)个体和 SNP 缺失，(2) 受试者的指定性别和遗传性别不一致（参见性别差异），(3)次要等位基因频率 (MAF) )、(4) 与哈代-温伯格平衡 (HWE ) 的偏差、(5)杂合率、(6)相关性和 (7) 种族异常值（参见人口分层）。

屏幕截图 2021-06-11 225833.jpg

可以按照https://github.com/MareesAT/GWA_tutorial/ (1_QC_GWAS.zip + 2_Population_stratification.zip) 上的在线教程中概述的所有步骤获得 QC 步骤 1-7 性能的实践经验。它提供了用于数据质量控制和潜在偏差来源可视化的脚本。这些脚本对 HapMap 数据的 CEU 组执行 QC，但可以应用于其他数据集，但基于家庭的数据集和涉及多个不同种族的数据集除外。一般而言，如果样本包括多个种族（例如非洲人、亚洲人和欧洲人），建议分别对每个种族进行关联测试，并使用适当的方法，例如荟萃分析（Willer, Li , & Abecasis, 2010)，合并结果。如果您的样本包括来自单一族群的受试者，则可以通过以下讨论的方法校正剩余的人口分层。

4. 控制人口分层

在GWAS系统性偏差的一个重要来源是群体分层，如框解释专栏1：。已经表明，即使是单一种族人口中细微程度的人口分层也可能存在（Abdellaoui 等人，2013 年；Francioli 等人，2014 年）。因此，测试和控制人口分层的存在是必不可少的 QC 步骤。

有几种方法可以校正人口分层（Price、Zaitlen、Reich 和 Patterson，2010）。在本教程中，我们将说明 PLINK 中包含的一种方法：多维缩放 (MDS) 方法。该方法计算样本中任何一对个体之间共享的等位基因的全基因组平均比例，以生成每个个体遗传变异的定量指数（成分）。可以绘制单个组件分数以探索是否存在比预期更相似的个体组。例如，在一项包括来自亚洲和欧洲的受试者的遗传研究中，MDS 分析将揭示亚洲人彼此之间的基因比欧洲人更相似。为了调查生成的成分分数偏离样本目标人群的个体，绘制被调查样本的分数和已知种族结构的群体（例如，HapMap/1KG 数据）是有帮助的：这一步称为锚定。这使研究人员能够获得有关其样本的种族信息并确定可能的种族异常值。提供了一个脚本https://github.com/MareesAT/GWA_tutorial/ (2_Population_stratification.zip) 对您自己的数据进行 MDS 以 1KG 项目的数据 ( http://www.1000genomes.org/ )为锚定。

数字 3举例说明了这种分析。基于 MDS 分析的异常值个体应从进一步分析中去除。排除这些个体后，必须进行新的 MDS 分析，其主要成分需要用作关联测试中的协变量，以校正人口中任何剩余的人口分层。需要包含多少成分取决于人口结构和样本大小，但精神遗传学界普遍接受最多包含 10 个成分。