人类非同义SNPs:server and survey
俄罗斯莫斯科国家预防医学研究中心Vasily Ramensky博士于2002年发表在Nucleic Acids Research上的文章Human non-synonymous SNPs: server and survey
摘要
人类单核苷酸多态性(SNPs)是最常见的人类群体DNA变异类型。SNP研究的主要目标之一是了解人类表型变异的遗传学,特别是人类复杂疾病的遗传学基础。非同义编码SNPs(nsSNPs)包括一组SNPs,这些SNPs与调控区的SNPs一起被认为对表型影响最大。在这里,我们提出了一个万维网服务器来预测nsSNP对蛋白质结构和功能的影响。该预测方法能够分析公开的SNP数据库HGVbase(人类基因组变异数据库, Human Genome Variation Database,位于欧洲),从而生成具有预测功能的nsSNP数据集。该数据集进一步用于比较负责nsSNPs表型显示的氨基酸替换的各种结构和功能特征的效果。我们还研究了选择压力对蛋白质结构和功能特性的依赖性。我们发现,在我们的数据集中,对有害SNPs的选择压力取决于蛋白质的分子功能,尽管它对所考虑的其他几种蛋白质特征不敏感。对参与转录调控的蛋白质检测到最强的选择压力。
介绍
一项相当大的努力正在进行,以将人类表型与DNA水平上的变异联系起来。大多数人类遗传变异由单核苷酸多态性(SNPs)表示,其中许多被认为会导致个体之间的表型差异。然而,识别特定表型的SNPs似乎是一个很难解决的问题。
关联研究的概念已被提出作为一种实验技术,用于识别复杂表型(主要是人类多因素疾病)的SNPs。然而,研究设计的问题是有争议的。基于连锁不平衡的全基因组扫描具有完全无假设的优势,尽管可能要求太高,因为需要筛选的标记数量非常多。候选基因研究试图将SNP的数量减少到最有可能构成疾病遗传基础的基因。尽管,即使是在后一种情况下,尤其是如果考虑到大量候选基因,对数百个甚至数千个SNP的多重测试也使得检测关联变得困难。
一种可能克服大量SNPs测试问题的方法,尤其是在候选基因研究中,是根据SNPs的功能重要性对其进行优先排序。首先,生物学知识可以通过关注特定的基因组区域或基因集来减少SNPs的数量,生物信息学专业知识可以帮助区分中性SNPs(构成遗传变异的大部分)和可能具有功能重要性的SNPs。下面,我们特别关注非同义SNPs(nsSNPs),例如,单核苷酸多态性位于编码区,导致基因蛋白质产物的氨基酸变异。最近的几项研究表明,氨基酸等位基因变体对蛋白质结构和功能的影响可以通过分析多序列比对和蛋白质3D结构来预测。正如我们在早期的研究中所证明的,这些预测与被视为过量稀有等位基因的自然选择效应相关。因此,在分子水平上的预测揭示了影响实际表型的SNP。
在此,我们提出:(i)一个用于注释功能性nsSNP的Web服务器(www.bork.embl heidelberg.de/Poly-Phen);(ii)从公共SNP数据库HGVbase中提取的nsSNP数据集(www.bork.embl heidelberg.de/polyph/data);(iii)分析这些数据对蛋白质结构和功能的预测影响。
(貌似这两个网站丢了|_|)
候选基因方法中SNPs的优先顺序并不是PolyPhen(polymorphism phenotyping,多态性表型)服务器和nsSNPs收集的唯一建议用途。该服务器还可以用于揭示疾病突变的结构基础和解释疾病的分子原因。在某些情况下,这可能有助于在疾病与某一特定位点相关联后识别致病等位基因变体。
另一方面,由于最近发表的许多疾病相关性无法通过后续独立研究得到证实,nsSNP功能性的独立证据可能是区分真正的相关性和假阳性的另一个论据。
对nsSNPs数据库的分析使我们能够测试蛋白质的某些特征是否与nsSNPs的积累有关(尤其是轻微有害的nsSNPs)。
材料和方法
PolyPhen是一个万维网服务器,致力于对编码nsSNP进行自动功能注释。PolyPhen的输入是蛋白质或SWALL数据库ID或登录号的氨基酸序列,以及序列位置和表征多态性的两个氨基酸变体。给定输入,PolyPhen启动本节中逐步描述的几个程序的全自动管道。管道示意图如图1所示。该服务器用于注释存放在HGVbase数据库中的所有SNP,注释后的SNP数据集可在http://www.bork.embl-heidelberg.de/PolyPhen/data。
图1 PolyPhen查询处理流程图。PolyPhen结合序列特征、与同源蛋白质的多重比对、结构参数和接触等信息,预测nsSNP对蛋白质功能的影响。hs_swallis是SWALL数据库(也称为SPTR,即SwissProt TrEMBL)智人集的缩写。Var1,2,两种氨基酸变体;ACC/ID、SWALL登记号或ID。
在已知基因中鉴定nsSNPs
分析nsSNP的必要的第一步是确定给定SNP是否确实是非同义的。为此,我们根据SNP DNA侧翼序列将SNP映射到已知蛋白质上。来自HGVbase的长度为25 bp的单核苷酸多态性的侧翼基因组序列已在所有六个可能的框架中翻译,并在SWALL数据库的人类蛋白质子集的蛋白质中搜索。使用SEG、XNU、RepeatMasker和DAST程序对蛋白质序列和基因组片段进行预处理,这些程序用于过滤成分复杂度低的区域、包含短周期内部重复序列的区域和已知的人类基因组重复序列。ALU亚家族蛋白也被排除在外。我们要求至少有一个翻译的侧翼序列应该与数据库中的蛋白质序列完全匹配。如果检测到这种匹配,我们进一步要求第二侧翼序列要么与蛋白质序列完全匹配,要么在所有位置与蛋白质序列匹配,直到观察到蛋白质末端或常规外显子/内含子边界。由此产生的SNP到蛋白质序列的映射总是唯一的。
上述程序作为独立的基于万维网的程序snp2prot提供。该程序的链接可从主页面获得。我们还提供了SNP注释工具HNP的链接(Y.Yuan,未发布的结果)。
在处理HGVbase v.12(983589个SNP条目)之后,我们获得了一组20462个编码SNP。其中1152个为非同义SNP,9310个为同义SNP,氨基酸序列无任何变化。nsSNP形成了我们的数据集,可以作为一个文本文件下载,也可以使用基于万维网的简单引擎进行搜索。搜索结果包含指向其他提供附加信息的数据库的链接,例如。nsSNP的染色体定位。
nsSNPs的PolyPhen分析
替换位点的基于序列的特征描述
替换可能发生在特定位置,例如,活跃的或结合的,或以非球状的,例如,跨膜区域。查询通过其SWALL登录号或ID或序列本身识别蛋白质。在后一种情况下,PolyPhen尝试在SWALL数据库的人类子集中找到给定序列,并使用相应条目的FT(特征表)部分。如果在SWALL的人类子集中找不到序列,则跳过此步骤。PolyPhen检查氨基酸替换是否发生在SWALL数据库特征表中标注为二硫键、硫键或硫键、结合、作用位点、脂质、金属、位点或修饰位点的位点,或位于跨膜区、信号区或PROPP区的位点。
Polyph还使用TMHMM算法预测跨膜区域,Coils2程序预测卷曲线圈区域,SignalP程序预测蛋白质序列的信号肽区域。
对于跨膜区域的替代,PolyPhen使用PHAT跨膜特异性基质评分来评估nsSNP在跨膜区域的可能功能效应。
在这一步中,PolyPhen将查询蛋白质中注释为结合、作用位点、脂质或金属的所有位置记忆起来。在后期,如果对具有已知3D结构的同源蛋白质的搜索成功,则检查替换位点是否与这些关键残基在空间上接触。
同源序列的剖面分析
氨基酸置换可能与在同源蛋白质家族中该位置观察到的置换谱不相容。PolyPhen通过对NRDB数据库的BLAST搜索识别输入序列的同系物。新版本的PSIC(位置特定独立计数)软件使用序列标识在30–94%(含)范围内的输入序列的对齐序列集来计算所谓的轮廓矩阵(http://strand. imb.ac.ru/PSIC/)。矩阵元素(轮廓分数)是给定氨基酸在特定位点出现的可能性与该氨基酸在任何位点出现的可能性(背景频率)的对数比率。PolyPhen计算多态位置的两个等位基因变体的轮廓分数之间差异的绝对值。PolyPhen还显示查询位置处对齐序列的数量;这可用于评估剖面分数计算的可靠性。
替换位点到已知蛋白质三维结构的映射
将氨基酸置换映射到已知的3D结构可以揭示置换是否可能破坏蛋白质的疏水核心、静电相互作用、与配体的相互作用或蛋白质的其他重要特征。如果查询蛋白质的空间结构未知,可以使用结构已知的同源蛋白质。
PolyPhen针对蛋白质结构数据库[PDB或PQS,见下文]对序列进行BLAST查询,并保留符合给定标准的所有hits。例如,默认序列同一性阈值设置为50%,因为该值保证基本结构特征的保护。默认情况下,最小命中长度和最大间隙长度分别设置为100和20。然后将替换位置映射到所有保留命中中的相应位置。默认情况下,如果研究位置的氨基酸与输入序列中的氨基酸不同,则拒绝具有3D结构的命中。根据序列同一性或与输入蛋白质的序列比对的E值对hits进行排序。
用于评估氨基酸取代效果的结构参数
如前所述,PolyPhen进行的结构分析基于几个结构参数的使用。重要的是,尽管输出中报告了所有参数,但最终决策规则中只使用了其中的一些参数。
二面角。
以下值也可通过PolyPhen计算得出:标准化可及表面积[绝对值除以最大面积,定义为PDB中该特定氨基酸类型表面积分布的99%分位数];替换引起的可接近表面倾向(基于知识的疏水“电位”)的变化;残渣侧链体积的变化(单位:A˚3);由二面角导出的xx二面角区域(Ramachandran地图);残留物的标准化B系数(温度系数)[遵循Chasman和Adams];根据HBplus计划,氢键丧失[继Wang和Moult]
默认情况下,上述参数仅为第一次命中计算。
与“关键部位”、配体和其他多肽链的接触
残基特定空间接触的存在可能揭示其在蛋白质功能中的作用。PolyPhen检查三种接触类型的可变氨基酸残基。首先,与配体的接触(定义为除水和“非生物”晶体配体外的所有杂原子)。第二,蛋白质分子亚单位之间的相互作用。从技术上讲,这些被定义为多态性残基与PDB(PQS)文件中存在的其他多肽链残基的接触。对于这种特殊类型的相互作用,使用PQS(蛋白质四级结构)数据库比使用PDB更有利,因为PQS条目应该提供蛋白质四级结构架构的更充分的图片。
PolyPhen分析的第三种接触类型由具有“临界”残基的接触表示,后者源自序列注释。输出中显示的所有联系人的建议默认阈值为6 A˚。但是,决策规则中使用的值为3 A˚。为了评估两个残基之间或一个残基与配体分子之间的接触,PolyPhen找到了两个残基原子之间所有可能的最小距离。默认情况下,将为具有结构的所有命中计算接触。这对于多个结构对应于一种蛋白质,但携带与其他大分子和配体的复合物的不同信息的情况是至关重要的。
预测规则
PolyPhen使用经验得出的规则(表1)预测nsSNP具有破坏性,即。E被认为会影响蛋白质功能,或者说是良性的。E很可能没有任何表型效应。该规则基于对各种结构参数和轮廓分数的分析,以区分人类蛋白质和密切相关的哺乳动物直系同源物之间的疾病突变和替代。我们介绍了两类预测:可能破坏蛋白质功能/结构的nsSNPs和可能破坏蛋白质功能/结构的nsSNPs。表1所示的方案成功预测了SwissProt数据库14中注释的约82%(更严格的规则集为约57%)的致病突变,并在控制组物种间替换的情况下产生了约8%(更严格的规则集为约3%)的假阳性。
一行对应一条规则,该规则可能由逻辑AND连接的多个部分组成。对于一个给定的替换,所有的规则都会一个接一个地进行尝试,从而预测功能效应:良性、可能有害或很可能有害。如果没有证据表明存在破坏性影响,则认为替代是良性的。
我们注意到,许多参数虽然是由服务器计算的,但被排除在决策规则之外。由于与其他参数的相关性,在不显著丧失预测特异性的情况下,它们无助于提高敏感性。基于多个比对的轮廓分数为预测提供了主要贡献。因此,即使在蛋白质没有已知3D结构的同系物的情况下,预测仍然相当可靠。
结果
nsSNPs的检索
HGVbase v.12是一个广泛管理的综合性公共数据库,被选为SNP数据的来源。该数据库有983,589个SNP条目,代表来自不同来源的SNP。重要的是,数据库中的SNP是根据可靠性分类的。也就是说,通过独立和可靠的实验验证确认的SNP标记为“已证实”,而其他SNP候选标记为“可疑”。数据库的第12版包含984,093个条目,其中983,589个是SNP,而其余代表其他类型的遗传变异。然而,只有14,986个SNP出现在“已证实”类别中。我们将所有可用的SNP映射到已知蛋白质上,发现其中9,310个是同义的,1,152个是非同义的,导致蛋白质序列中的氨基酸变化。其中1,276个已鉴定的nsSNPs已“证实”。
只有1,026个nsSNPs与已知3D结构的蛋白质具有至少50%的序列同源性。其余nsSNP的分析仅基于多重比对信息。
这些nsSNP的数据库及其使用PolyPhen的分析可访问http://www.bork.embl-heidelberg.de/PolyPhen/data。只有9,165(82%)个nsSNPs可以进行PolyPhen分析,因为其余的nsSNPs被映射到蛋白质上,没有适用的位点注释,SWALL数据库中也没有用于多重比对或结构分析的合理接近的同源序列。
PolyPhen分析的结果如图2所示。
图2 HGVbase数据库v.12的PolyPhen分析结果。hs_SWALL表示SWALL数据库的智人数据集。snp2prot是一个内部命令行工具,用于将HGVbase单核苷酸多态性映射到已知人类蛋白质序列。共鉴定出11,152个nsSNPs。据预测,其中1,591个存在破坏蛋白质结构和功能的可能,另外1,257个极有可能破坏蛋白质结构和功能。与基于序列的预测数量相比,基于结构的预测数量要少得多,因为只有1026种情况下可以获得结构信息。
nsSNPs的结构特征
正如Wang和Moult所指出的,大多数疾病突变和可能有害的nsSNPs影响蛋白质稳定性而不是功能性。已经提出了各种结构参数来检测氨基酸替换的影响。我们选择了一组结构参数,并通过比较人类蛋白质和密切相关的哺乳动物直系同源物之间的疾病突变、nsSNPs和替换来评估其影响。我们还选择了三个负责功能的特征:将位点注释为BINDING, ACT_SITE, LIPID或METAL(SwissProt特征表术语);注释位点的接近(程度);与共结晶配体的接近(程度)。表2中的数据证实,功能参数对疾病突变和有害nsSNP的分子起源的影响小于蛋白质稳定性特征。在表2中给出的结构特征中,疏水核心稳定性参数是最好的预测因子。
有趣的是,对于所有分析的参数,我们在表2中观察到了相同的模式。影响结构参数的单核苷酸多态性的比例总是远远低于致病突变的比例。同时,它总是高于物种间相应的替换数。这一观察结果表明,所有与这些结构参数相关的效应都与人类基因组中有害等位基因的积累有关。
致病突变受到很强的选择压力,并很快从人群中消除。相比之下,在健康个体中检测到的轻微有害的SNPs被认为处于较低的选择压力下,因此在人群中具有更长的持续时间。如表2所示,我们没有观察到任何结构特征单独导致强选择或弱选择,因为所有参数显示相同的模式。
尽管许多结构参数可以作为替代效应的合理可靠预测因子,构造参数内部,尤其是构造参数与从多个层序排列中看到的长期选择性压力信号之间的强相关性使得有必要将许多参数从组合预测规则中排除。对于预测具有破坏性的nsSNPs组,基于合并了多重比对和结构信息(适用于这些情况)的组合规则组,结构参数在40%的情况下起到预测作用。然而,在22%的情况下,不能仅在序列水平上进行预测(如果仅考虑“probably damaging”类别,则为28%)。
蛋白质的结构和功能特征及选择限制
正如对cSNP(编码SNP)发现的系统研究所表明的,nsSNP密度在人类基因上的分布是高度不均匀的。除了基因座结合史的差异外,nsSNPs比率的这种显著差异可能是由针对有害变体的选择压力的变化引起的。我们预计选择压力的差异可能是由结构特性引起的,因为对稳定性或功能性重要的位点的数量可能取决于蛋白质结构类型。此外,与细胞内蛋白质相比,细胞外蛋白质具有更高的稳定性,这可能会影响选择性约束。另一方面,选择压力可能取决于基因对生物体整体适应性的影响。为了测试蛋白质的上述特性是否对nsSNPs的密度有影响(考虑具有相同数量同义SNPs的基因以纠正各种偏差来源),我们根据SCOP和GO分类将数据库中的基因细分为组。与我们的预期相反,我们没有检测到有害nsSNPs的选择压力与二级结构类别、定位或生物过程有显著相关性。这可能是因为我们将基因分成了非常大的类别,如果考虑更精细的分类,这种影响可能会被检测出来。或者,我们必须得出这样的结论:这些特征对选择性约束没有强烈的影响。
相反,蛋白质的分子功能显示出与选择压力强度的统计显著关联(2次测试的值为0.009)。对有害nsSNPs表现出最高选择压力的功能类是转录因子类。此类显示与选择约束的平均级别的最大偏差。酶是一类具有最低选择压力的蛋白质。被PolyPhen预测为有害的nsSNPs的比例在酶中最高,在转录因子中最低。这是意料之中的,并且表明低选择性限制允许轻微有害SNPs的积累。我们假设这一观察结果可以用显性的分子基础来解释(35)。酶的突变很可能是隐性的,因为代谢途径中的流量随着酶活性的降低而发生非常微小的变化(35)。相反,转录因子活性的变化会对受调控基因的转录水平产生很大影响。OMIM数据库中列出的转录因子(http://www.ncbi.nlm.nih.gov/Omim/)被报道是显性基因的频率更高。
然而,我们应该注意到,目前的SNP数据库可能偏向于“流行”基因,这可能会影响我们的结果。未来,通过大规模系统研究产生的更大数据集,将有可能进行更精确的选择压力研究。