生物信息学习生物信息学与算法

现代高科技算命?聊聊基因风险预测

2019-12-31  本文已影响0人  WooWoods

随着测序价格的大幅降低,我们已进入千元基因组时代,虽然人们翘首以盼的个人基因组百元时代仍未到来,但是早已有不少商业公司推出了几百元的个人基因(不是基因组)检测产品。可能有些朋友已经体验过了,毕竟花几百块钱就可以享受人类基因组研究的前沿成果,从基因层面深入了解自己的身体,怎么算也不亏。这一类的基因检测报告中通常会包含如下内容



真是一看吓一跳,平时身体没什么问题,没事还能走两步,体检各项指标也都正常。怎么做基因检测风险就那么高,简直分分钟火葬场的节奏,还要不要好了。


赶紧喝口啤酒加枸杞压压惊,让我们来冷静科学的分析一下,这里的基因风险到底传达了什么信息,难不成真的明天就要糖尿病了?
搬好小板凳,且听我们娓娓道来,故事还得从基因和疾病的关系说起。遗传性疾病
通常可分为单基因疾病和多基因疾病(染色体结构变异和非整倍体等不在本篇讨论范围)。

单基因疾病

顾名思义,是指单个基因突变导致的疾病。中学课本上的案例镰刀型贫血就是单基因疾病的典型例子。

镰刀型细胞贫血病又称镰刀状细胞型贫血、镰状细胞贫血,是一种常染色体显性遗传血红蛋白病,因β-肽链第6位氨基酸谷氨酸被缬氨酸所代替,构成镰状血红蛋白,取代了正常血红蛋白。


对于单基因疾病,基因突变是导致疾病的直接原因,其致病性与突变基因的显隐性和拷贝数有关。
有关单基因遗传病可以浏览人类孟德尔遗传数据库OMIM,其中收录了非常全面的致病基因和表型信息。

多基因疾病

不同于单基因疾病,复杂疾病(高血压、冠心病、糖尿病、癌症等等)是由多个基因和环境(抽烟、喝酒、烫头、睡眠、精神压力等)共同作用的结果,也被称为多基因疾病(polygenic disease)。很多表型(下文中统一使用表型,疾病也是表型)如身高、体重、肤色等表型也都是属于这种类型。跟这些表型相关的基因数量众多,而单个基因对表型影响甚微,因此无法做到像单基因疾病那样用单个基因来预测表型。
以冠心病为例,研究发现了60多个分布于全基因组范围的变异。


Polygenic risk score

前些年热火朝天的GWAS研究共燃烧了数百亿经费,涉及上千万样本,发现了海量的疾病相关位点,其规模之大从 GWAS Central 数据库收录的信息可见一斑

The GWAS Central Study database August 2019 release increased the number of GWAS from 3,306 to 3,811 studies (70,566,447 p-values, 3,251,694 unique dbSNP markers).

然而由于复杂疾病的特性,GWAS 研究也遭受到一些学者的质疑,认为如此劳师动众找到的疾病相关位点无法用于临床预测疾病风险,只能算是生物学基础研究。如何将GWAS的研究成果应用于临床,就成了研究人员面临的一个问题。有人就提出,“既然单个位点效力微弱,那如果将所有疾病相关位点累加起来,会不会取得更好的预测结果呢?”,这就是 Polygenic risk score 的由来。这个想法很符合正常人的思维模式,没有拽什么复杂高深的数学方法,公式看起来非常的朴素:

GRS表示个体携带的风险等位基因的加权总和,其中
k:模型采用的SNP位点数量
Ni:第 i 个 SNP 上风险等位基因(risk allele)的数量,取值为 0,1,2
βi:第 i 个 SNP 的 effect estimates,取自GWAS的研究结果,对于连续型变量的表型(如BMI)β表示 beta 值;对于二元变量的表型(case/control)β 表示 logOR

虽然很简单,但是这个等式直接来源于GWAS中的回归模型,因此直觉上肯定是具有统计学效力的,PRS的提出无疑为复杂疾病研究的拼图又添上了一块。

以 "Polygenic risk score" 为关键词搜索 PubMed 数据库,查看相关文章发表情况



可以看到文章数量逐年升高,其中不乏发表在 CellLancetNature Genetics 等顶级期刊上的,PRS的重要性和热度由此可见一般。
这篇发表在 Nature Genetics 上的文章表示他们用 Genome-wide polygenic score 方法鉴定出对于冠心病、房颤、2型糖尿病、炎症性肠病和乳腺癌,人群中分别有 8%、6.1%、3.5%、3.2%和1.5%的人基因风险高于平均值3倍,并呼吁将 polygenic score 纳入临床。

Polygenic risk score 的解读

在人群中 PRS 一般是符合正态分布的,因此绝大多数人的风险值都在平均水平,高风险和低风险的都只占少数。



那么文章开头基因检测的例子就很好理解了,比如2型糖尿病,检测公司会根据相关位点的基因型算出一个风险值(PRS),以公司内部积累的人群平均风险值为参照,获得一个相对于人群平均值的风险倍数。
检测结果的准确性主要取决于两个方面,一个是检测公司选择的位点,另一个就是它使用的参考数据库。检测的位点都是查文献得来的,实际检测位点的数量和成本有关。参考数据库是非常重要的,首先不同人群基因频率是不一样的,以欧洲人的样本建立的风险模型肯定不适用于中国人,所以中国人做检测还是要找中国的公司。然后就是样本量,样本量越大结果越准确,所以有些检测公司的价格非常便宜大家也不要怀疑它是假的,实际上他们是半卖半送,为了拿到客户的基因数据,因为数据是他们的立身之本(这样说来他们应该给客户钱)。所以提醒大家保护好自己的基因数据,不过这又是另一个话题了。
那么我们假设检测结果是准确的,基因风险就是很高,我们又该如何应对呢。检测公司给的建议无非是保持健康的生活习惯,多运动,定期体检,听起来就是一堆正确的废话,不能说点有用的吗?

基因不是命运

我们不要唯基因决定论,表型是基因和环境共同作用的结果,“橘生淮南则为橘,生于淮北则为枳”。基因风险高,并不代表患病的风险高,对于复杂疾病来说,基因只是众多影响因素中的一个。比方说有两个人,他们的冠心病的PRS同样都是高风险,一个20岁,一个70岁,那么显然是70岁的人患冠心病的风险更高嘛。
所以如果基因检测出现高风险的情况也不要着急,基因是爹妈给的,现在的技术也没法改变,但是我们可以通过健康的生活习惯来弥补,健康饮食,合理休息和运动,减少环境因子的影响,从而降低患病风险。反过来不注重这些,下班躺尸,每晚熬夜,快乐水常伴左右,再好的底子身体怕也是要抗议的。所以检测公司给的建议真的不是废话,改变自己,从细微处做起,不管是对身体,还是头脑,都会产生深远的影响。
中国人说 “命由天定,运由己生”,好像就是这个道理,如此看来现代科学与古老的东方智慧似乎以一种神奇的方式实现了和谐统一呢。

今天是2019年的最后一天了,祝愿大家都保持一副健康的好身体,来年再战!
2020年再会!


参考文献

Khera A V, Chaffin M, Aragam K G, et al. Genome-wide polygenic scores for common diseases identify individuals with risk equivalent to monogenic mutations[J]. Nature genetics, 2018, 50(9): 1219.
Cooke Bailey J N, Igo Jr R P. Genetic risk scores[J]. Current protocols in human genetics, 2016, 91(1): 1.29. 1-1.29. 9.

上一篇 下一篇

猜你喜欢

热点阅读