生物信息学

GWAS - PRS多基因风险评分计算学习笔记

2020-05-31  本文已影响0人  SnowPye

一、安装PRSice(mac版)

经试验我觉得直接从git hub中下载对应的安装包是最快的:https://github.com/choishingwan/PRSice,下载之后解压,解压文件如图所示

跟plink的安装一样,打开terminal,cd到解压的文件夹,./PRSice_mac如果显示下面的画面表现为安装成功:



之后下载R包

Rscript PRSice.R --dir .

Rscript 表示用R脚本来调用该软件
dir参数为指定R包ggplot2安装的路径
因为结果展示会调用ggplot2画图进行可视化,如果你的R中已经安装了这个包,这个参数可以不要!!!!(我的R中有,所以后文中的此条命令我均不需要运行)
**因为直接运行该命令总容易报错,因此也可以通过R studio来安装这个包:点击面板中的package,选择ggplot2点击install,如果太慢的话选择清华的镜像就会快一点

二、文件准备

上面安装成功的图中可以看到PRSice的注释信息,需要准备base和target两个文件

三、PRSice运行

#二元性状用的是OR值,命令如下
Rscript PRSice.R --dir . \ 
  --prsice ./PRSice \
  --base TOY_BASE_GWAS.assoc \
  --target TOY_TARGET_DATA \
  --thread 1 \
  --stat OR \
  --binary-target T

#数量性状用的是BETA值,命令如下
Rscript PRSice.R --dir . \
  --prsice ./PRSice \
  --base TOY_BASE_GWAS.assoc \
  --target TOY_TARGET_DATA \
  --thread 1 \
  --stat BETA \
  --beta \
  --binary-target F

#第一步: mv操作,重命名.fam文件为tmp文件,这样可以在上tmp上面修改
mv xxxx.fam tmp
#第二步:awk操作,把第六行全部变成2,然后这个东西再重新写入.fam文件
awk '{print $1,$2,$3,$4,$5,$6=2}' tmp > xxxx.fam

四、运行结果解释

运行完毕后,PRSice文件夹中应该有如下的文件,两个图和几个文本文件



附1:OR值与log OR值的转换

下载PGC数据库关于精神分裂症的数据https://www.med.unc.edu/pgc/data-index/
下载完成为.gz文件,解压语句:

tar -xzvf file.tar.gz      #解压xxxtar.gz文件
gunzip FileName.gz    #解压xxx.gz文件

我下载的为第二种文件,解压完成后得到一个文稿,可以用txt打开
打开之后检查一下文稿里面是OR值 或者 log OR值(计算PRS需要用OR),可以用R进行转换:

dat <- read table("xxxx.txt",header=T)
dat$OR <- exp(dat$LogOR)
write.table(dat,"xxxtransformed.txt",quote=F, row.names=F)
q()

附2:万能查看文件语句

用txt可以打开任何一个文件查看,什么后缀的都可以但是!!!!!!排列不整齐!!!!进行后续筛选非常不方便!!!!!!
这个时候sort -o可以帮你

sort -o happy.txt sad.assoc 

上面的命令就可以把关联分析得到的sad.assoc文件 另存为 happy.txt,然后就可以用EXCEL打开了,尽情查看吧。

参考资料

http://www.360doc.com/content/19/1224/13/68068867_881784568.shtml
https://choishingwan.github.io/PRSice/step_by_step/
https://www.jianshu.com/p/636048889b2a
https://www.jianshu.com/p/656573127d11
https://www.cnblogs.com/chenwenyan/p/10686136.html
https://www.jianshu.com/c/7df7c15887bd

上一篇下一篇

猜你喜欢

热点阅读