数量遗传或生统群体遗传学NGS

GWAS分析-说人话(15)- 如何查看SNP所在的基因

2020-02-24  本文已影响0人  医学小蛋散

前言

当我们获得一堆“感兴趣”/“有意义”的SNPs之后,

怎样知道这些SNPs所在的基因呢?

不要告诉我一个一个在pubmed查就好~


我们需要知道Plink哪个参数可以帮我们做这个事情(这个肯定不只是我们遇到的问题,大神们早就遇到了~)——“--annotate”

代码格式如下:

plink --annotate myfile.assoc attrib=snp129.attrib.gz ranges=glist.txt

好呢,秒懂的大神们请直接飘过~

这个“说明书”是什么意思?

是说plink这个软件调动后啊,如果调动--annotate这个功能去命名你想匹配的SNPs列表(myfile.assoc),还需要告诉plink匹配SNPs使用的SNPs列表(attrib=snp129.attrib.gz),以及一个基因列表(ranges=glist.txt)。

尽管官网上已经很“友善”地列出了1-2-3步,但是嘛,如果那是人话,都不用写这个玩意了~

Step 1准备一个txt文件,必须包括4列,格式如下

CHR,SNP,BP和P4列

好的,Excel打开是张这样的(我这个系列就是不打算用什么高端操作整理数据的)

把你分析出来的SNPs所在染色体,SNP号码,BP,P值复制黏贴到一个表格上~

注意:记得,表头是要有的!!!

电脑是很蠢的,说了是怎样的格式,就是怎样的格式,否则根本识别不了!~

Step 2:准备一个SNPs的信息表

当中包括这些内容~

不要慌,这个官网上就有下载的~

正正就在红色的NOTE(截图最后一行的链接处)~

下载地方

人话风格,就在这里:http://zzz.bwh.harvard.edu/plink/res.shtml#attrib

邮件另存为:SNP attributes: snp129.attrib.gz (这个文件)~

Step 3 准备一个glist文件

glist文件其实就是“基因的坐标系”,第一列是基因所在的染色体号码,第二到第三列是基因所在的范围,打比方说,两个人买了电影票,也要在屏幕下的那么多个位置中对号入座入座吧?最后一列就是基因名字。

这是官网的第三步

经典套路,这个文件也是在NOTE后面的链接里下载的。

点进去后,这里就有两个文件可以下载了:hg18和hg17

hg18和hg17

根据自己的需要,邮件另存为其中一个文件就可以了(本操作使用hg17)

好了!!!官网就到这里了,你们说是人话吗?

来吧,我接着补充:

Step 4 把刚刚下载的和准备的文件,放在一个文件夹中~

文件夹中的文件 

(当然,你不放在同一个文件夹也是可以的,plink的时候告知路径就可以了)

Step 5 发动plink魔法阵~

/XXX/plink_mac_20190617/plink --noweb --annotate /XXX/Desktop/20200224/genes/allsnpprevious.txt attrib=/XXX/Desktop/20200224/genes/snp129.attrib ranges=/XXX/Desktop/20200224/genes/glist-hg17.txt

没错,就是套用一开始说明书的命令(这就是为什么打算一开始就知道咋弄的原因~)

我还是解释一下:

/XXX/plink_mac_20190617/plink --noweb --annotate 

这里是告诉电脑plink位置,需要使用--annotate 命令

(注意--annotate和后面的/XXX/Desktop/20200224/genes/allsnpprevious.txt要有一个空格的间隔)

(这个是基本的命令行操作的要求了~否则傻傻的电脑不知道这个是命令行,要他做什么,然后就只会报错了~)

/XXX/Desktop/20200224/genes/allsnpprevious.txt 

这里是告诉plink你SNPs列表的位置

attrib=/XXX/Desktop/20200224/genes/snp129.attrib 

这里是告诉plink你的这 是告诉plink你的snp129.attrib文件的位置

ranges=/XXX/Desktop/20200224/genes/glist-hg17.txt

这里是告诉plink你的这 是告诉plink你的glist-hg17.txt文件的位置

Step 6 最后的数据长这样:

由于文章未发表,就不截图了,直接上官网的结果(一模一样的)

官网其实还是尽力了的,告诉你(0)这样就是完全匹配,(+5kb)就是在该基因5kb以外的地方

当然,对于新手,连打开哪个文件都是不知道的(蓝色这个):

右键,选择Excel打开~

后记:

1.其实本质上,就是要告诉这个软件1.你的SNPs是什么? 2.记录了SNP的一个全表,3.记录了基因的一个全表,然后“非诚勿扰”那样相亲,匹配~

2.中间有一个设计基本功的地方了:hg17和hg18.

首先,这个是人类的基因组版本,

其实人类基因组计划启动20年了,不断更新,因此出了很多基因组版本

摘抄如下,出处见参考文献:

2013年的GRCh38/hg38 (最新)

2009年的GRCh37/hg19 (常用,Feb. 2009 (hg19, GRCh37)这个是重点

2006年的GRCh36/hg18 (最新?Mar 2006 assembly = hg18 = NCBI36.)

2004年的GRCh35/hg17 (常用,May 2004 assembly = hg17 = NCBI35.)

2003年的(July 2003 assembly = hg16 = NCBI34)

以前的老版本就不用看啦,现在其实都已经有hg38出来啦,GRCh38 (NCBI) and hg38(UCSC)

参考文献:

1.Plink官网:http://zzz.bwh.harvard.edu/plink/index.shtml 。

2.liftOver进行不同版本染色体位置转换

3.生信菜鸟团的:Hg19基因组的分析

上一篇下一篇

猜你喜欢

热点阅读