GWAS后续分析：多基因风险评分(Polygenic Risk

2019-04-11 本文已影响305人橙子牛奶糖

一、什么是多基因风险评分

传统的GWAS研究只计算单个SNP位点与表型之间的关联性，再用Bonferroni校正，通过给定的阈值，筛选出显著的SNP位点。

这样会存在两个问题，第一、Bonferroni校正非常严格，很多对表型也有贡献的位点会因为达不到阈值而被过滤掉。第二、单个位点对表型的解释度是很低的，尤其是对于高血压这种多基因控制的表型，用一个个单独的位点解释高血压患病风险，就显得很单薄。

因此，开发一个能让我们直观的感受，患某种疾病的风险多高的工具，显然是非常有必要的。

为了更好理解多基因风险得分（PRS）的概念，我画了一个图，假如翠花的多基因风险评分处于第二个柱形图那里，那么我们就会认为翠花得某种疾病的风险比普通人要低。

二、多基因风险得分的公式

多基因风险得分的公式如下：

PT表示P值的阈值；

i表示符合该阈值下的SNP的数量，i = 1, 2, ..., m；

βi表示SNP的效应值，在GWAS当中，如果是线性表型，该值为β，如果是二元表型，该值为OR；

Gi,j 表示SNP的基因型，分别用{0,1,2}显示；

三、怎么计算多基因风险评分

计算PRS的主流软件有PRSice，截止目前为止，引用率有366次。

下面详细讲讲如何应用PRSice计算多基因风险得分。

1、PRSice安装

进入下载链接。选择所需的系统，以下安装以Linux系统为例。

wget https://github.com/choishingwan/PRSice/releases/download/2.1.11/PRSice_linux.zip

2、解压PRSice

unzip PRSice_linux.zip

解压完以后，出现以下几个测试文件：

3、测试是否安装成功

输入命令

./PRSice_linux

如果安装成功，则会出现如下的界面：

4、使用PRSice计算多基因风险得分（PRS）

对于二元表型，使用以下代码

Rscript PRSice.R --dir . --prsice ./PRSice_linux --base TOY_BASE_GWAS.assoc --target TOY_TARGET_DATA --thread 1 --stat OR --binary-target T

对于连续型变量的表型，使用以下代码

Rscript PRSice.R --dir . --prsice ./PRSice_linux --base TOY_BASE_GWAS.assoc --target TOY_TARGET_DATA --thread 1 --stat BETA --beta --binary-target FF

四、生成文件结果解读

跑完上面的命令后会生成以下文件：

PRSice.best，PRSice_BARPLOT.png，PRSice_HIGH-RES_PLOT.png，PRSice.log ，PRSice.prsice，PRSice.summary

下面一个个的讲解这些文件包含哪些重要的信息。

PRSice.prsice文件

PRSice.prsice的文件格式如下：

PRSice.prsice文件包含：在给定不同阈值的P值以后，符合要求的SNP数量（Num_SNP）,SNP的解释度（R2），回归系数

PRSice.best文件

PRSice.best文件格式如下：

文件包含FID,IID,是否回归，PRS值。这个文件计算的是每个个体最优的PRS值。

PRSice.summary文件

PRSice.summary文件内容如下：

包含表型，P的阈值，PRS的解释方差，所有变量的解释方差，协变量的解释方差，回归系数，P值，该阈值下的SNP数量。这个文件给出的是该表型下最优的模型。

PRSice_BARPLOT.png图片

PRSice柱状图显示的是不同P值阈值（横轴）下的多基因风险得分（纵轴），柱状图最高的点表示模型最优，如该图显示的是P值阈值为0.4463时，模型最优，该表型的多基因风险得分为0.052，P值为4.7*10-18

PRSice_HIGH-RES_PLOT.png图片

这张图显示的是，在该模型下，最佳的P值阈值为绿色最高点处，此时P值的阈值为0.4463

参考文献：

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3605113/

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1987352/

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3912837/