试读基因组学

生物信息数据质控详解(全基因组)第一辑

2021-06-11  本文已影响0人  超级宇航员

目标

全基因组关联研究 (GWAS) 在鉴定单核苷酸多态性 (SNP) 和表型特征之间的关联方面变得越来越流行。GWAS 方法通常应用于社会科学。但是,需要仔细进行统计分析,并且需要使用专用的遗传学软件。本教程旨在为进行遗传分析提供指导。

方法

我们讨论和解释关键概念,并说明如何使用通过 https://gitee.com/apexone/GWA_tutorial提供的示例脚本进行 GWAS 。

除了标准 GWAS 的说明外,我们还将展示如何应用多基因风险评分 (PRS) 分析。PRS 的目的不是识别单个 SNP,而是聚合来自整个基因组的 SNP 的信息,以提供个体水平的遗传风险评分。

结果

本教程中将说明的模拟数据和脚本提供了遗传分析的动手实践。这些脚本基于 PLINK、PRSice 和 R,它们是可供新手用户访问的常用、免费提供的软件工具。

结论

通过提供理论背景和实践经验,我们旨在让未经该领域正式培训的研究人员更容易接触到 GWAS。

1.开始吧我们

在过去的 20 年中,人们对调查遗传风险因素对人类行为变异的影响越来越感兴趣。进行基因研究所需的技术和分析工具越来越容易获得。这种增加的可及性提供了巨大的希望,因为遗传学领域以外的研究人员可能会为该领域带来新的专业知识(例如,对精神病学特征的疾病分类学有更深入的了解)。然而,以正确的方式进行遗传关联研究需要特定的遗传学、统计学和(生物)信息学知识。本文旨在通过介绍关键概念和共享可用于数据分析的脚本,为进行遗传分析提供指导。

全基因组关联研究 (GWAS) 的目的是确定单核苷酸多态性( SNPs;参见方框1:有关在整个手稿中以粗体印刷的所有术语的解释),其中等位基因频率作为函数系统地变化表型特征值的差异(例如,在精神分裂症病例和健康对照之间,或在神经质得分高与低的个体之间)。性状相关 SNP 的鉴定可能随后揭示对这些表型背后的生物学机制的新见解。技术进步允许调查分布在整个基因组中的大量 SNP 的影响。

2. 软件

QC 程序和统计分析将使用免费、开源的全基因组关联分析工具集 PLINK 1.07 版(Purcell 等人,2007 年)进行说明,可从http://zzz.bwh.harvard.edu/plink下载/ . PLINK 1.9 测试版包含相同的选项,但速度要快得多https://www.cog-genomics.org/plink/1.9/. 由于 PLINK 1.9 目前是测试版,我们在本教程中使用了官方 PLINK 版本。但是,也可以使用 PLINK 1.9 完成所有教程。尽管本文中讨论的某些步骤可以在 R 等传统统计软件包中执行,但专门用于分析遗传数据的软件包使用起来要方便得多。除了 PLINK 之外,还有许多其他不错的选择可用于分析 SNP 数据,例如 Genabel(Aulchenko、Ripke、Isaacs 和 Van Duijn,2007 年)和 SNPTEST(Marchini、Howie、Myers、McVean 和 Donnelly,2007 年) . 此外,还开发了允许在基于家庭的 GWAS 中测试关联的方法(Chen & Yang,2010; Ott、Kamatani 和 Lathrop,2011 年)。我们建议使用基于 GNU/Linux 的计算机资源,尽管许多选项也可以通过 Windows 版本的 PLINK 获得。可以在http://www.ee.surrey.ac.uk/Teaching/Unix上找到对 shell 和命令行的基本介绍。GitHub 示例脚本生成的所有图形都将使用免费的开源编程语言 R ( https://www.r-project.org/ ) 获得。

2.1. 数据格式

PLINK 可以读取文本格式的文件或二进制文件。由于读取大型文本文件可能很耗时,因此建议使用二进制文件。文本 PLINK 数据由两个文件组成:一个包含关于个体及其基因型的信息 (.ped);另一个包含有关遗传标记的信息(.map;见图 1)。相比之下,二进制 PLINK 数据由三个文件组成,一个包含个体标识符 (ID) 和基因型 (.bed) 的二进制文件,以及两个包含个体 (.fam) 和遗传标记信息的文本文件 ( .bim;见图 1)。例如,在双相情感障碍的研究中,.bed 文件将包含所有患者和健康对照的基因分型结果;*.fam 文件将包含与受试者相关的数据(与研究中其他参与者的家庭关系、性别和临床诊断);而 *.bim 文件将包含有关 SNP 物理位置的信息。使用协变量的分析通常需要第四个文件,其中包含每个人的这些协变量的值(见图 1)。

MPR-27-e1608-g001.jpg

2.2. 基本的PLINK命令

具体命令见前几个推文

3. 基因数据质量控制

应该成为任何 GWAS 一部分的一个重要步骤是使用适当的 QC。如果没有广泛的 QC,GWAS 将不会产生可靠的结果,因为原始基因型数据本质上是不完美的。数据中的错误可能有多种原因,例如,由于 DNA 样本质量差、DNA 与阵列的杂交不佳、基因型探针性能不佳以及样本混淆或污染。例如,未能彻底控制这些数据问题导致 Sebastiani 等人发表的一篇文章被撤回。( 2010 ) in Science (Sebastiani et al., 2010 , 2011 ; Sebastiani et al., 2012 ; Sebastiani et al., 2013)。被撤回的文章的结果受到 Illumina 610 阵列技术错误和质量控制不足的影响。尽管经过适当的 QC 后主要科学发现仍然得到支持,但新分析的结果偏差很大,以至于作者决定撤回该文章。

3.1. 使用HapMap数据进行数据模拟

为了能够使用真实的遗传数据说明所有分析步骤,我们 使用来自国际 HapMap 项目 ( http://hapmap.ncbi.nlm.nih)的公开数据模拟了一个具有二元结果度量的数据集 ( N = 207) 。 gov/downloads/genotypes/2010-05_phaseIII/plink_format/;Gibbs 等人,2003)。在本教程中,为了创建种族同质的数据集,我们只包括来自北欧和西欧 (CEU) 血统的犹他州居民。由于 HapMap 数据的样本量相对较小,这些模拟中的遗传效应大小设置为比通常在复杂性状遗传研究中观察到的值大。需要注意的是,检测复杂性状的遗传风险因素需要更大的样本量(例如,至少在数千,甚至可能是数万或数十万)。可以在https://github.com/MareesAT/GWA_tutorial/ (1_QC_GWAS.zip)找到具有模拟表型特征的 HapMap 数据。

3.2. QC步骤概述

由于 GWAS 所面临的挑战,我们旨在说明基本的 QC 步骤并提供示例脚本。阈值可能会根据研究的具体特征而有所不同。七个 QC 步骤包括基于以下因素过滤掉 SNP 和个体:(1)个体和 SNP 缺失,(2) 受试者的指定性别和遗传性别不一致(参见性别差异),(3)次要等位基因频率 (MAF) )、(4) 与哈代-温伯格平衡 (HWE ) 的偏差、(5)杂合率、(6)相关性和 (7) 种族异常值(参见人口分层)。

屏幕截图 2021-06-11 225833.jpg

可以按照https://github.com/MareesAT/GWA_tutorial/ (1_QC_GWAS.zip + 2_Population_stratification.zip) 上的在线教程中概述的所有步骤获得 QC 步骤 1-7 性能的实践经验。它提供了用于数据质量控制和潜在偏差来源可视化的脚本。这些脚本对 HapMap 数据的 CEU 组执行 QC,但可以应用于其他数据集,但基于家庭的数据集和涉及多个不同种族的数据集除外。一般而言,如果样本包括多个种族(例如非洲人、亚洲人和欧洲人),建议分别对每个种族进行关联测试,并使用适当的方法,例如荟萃分析(Willer, Li , & Abecasis, 2010),合并结果。如果您的样本包括来自单一族群的受试者,则可以通过以下讨论的方法校正剩余的人口分层。

4. 控制人口分层

在GWAS系统性偏差的一个重要来源是群体分层,如框解释专栏1: 。已经表明,即使是单一种族人口中细微程度的人口分层也可能存在(Abdellaoui 等人,2013 年;Francioli 等人,2014 年)。因此,测试和控制人口分层的存在是必不可少的 QC 步骤。

有几种方法可以校正人口分层(Price、Zaitlen、Reich 和 Patterson,2010)。在本教程中,我们将说明 PLINK 中包含的一种方法:多维缩放 (MDS) 方法。该方法计算样本中任何一对个体之间共享的等位基因的全基因组平均比例,以生成每个个体遗传变异的定量指数(成分)。可以绘制单个组件分数以探索是否存在比预期更相似的个体组。例如,在一项包括来自亚洲和欧洲的受试者的遗传研究中,MDS 分析将揭示亚洲人彼此之间的基因比欧洲人更相似。为了调查生成的成分分数偏离样本目标人群的个体,绘制被调查样本的分数和已知种族结构的群体(例如,HapMap/1KG 数据)是有帮助的:这一步称为锚定。这使研究人员能够获得有关其样本的种族信息并确定可能的种族异常值。提供了一个脚本https://github.com/MareesAT/GWA_tutorial/ (2_Population_stratification.zip) 对您自己的数据进行 MDS 以 1KG 项目的数据 ( http://www.1000genomes.org/ )为锚定。

数字 3举例说明了这种分析。基于 MDS 分析的异常值个体应从进一步分析中去除。排除这些个体后,必须进行新的 MDS 分析,其主要成分需要用作关联测试中的协变量,以校正人口中任何剩余的人口分层。需要包含多少成分取决于人口结构和样本大小,但精神遗传学界普遍接受最多包含 10 个成分。

上一篇 下一篇

猜你喜欢

热点阅读