生信小工具:Plink之下载安装与其基本格式(1)
谈起Plink相信熟悉的人更定都会知道,这是一个全面的基因组分析工具集,具有很多的小功能,在SNP数据统计,过滤,GWAS分析中都可以用得上,而且速度非常的快,堪称是生物信息分析软件中神器之一。但是在网上逛了一圈发现,好像关于该工具的比较系统的中文教程暂时还找不到。那没办法了,只能自己来总结了。首先,咱们从简单入手先谈谈其下载安装和对应的基本格式。
Plink介绍
PLINK是一个免费的开源全基因组关联分析工具集,旨在以计算有效的方式执行一系列基本的大规模分析,由Shaun Purcell在马萨诸塞州综合医院(MGH)的人类基因研究中心(CHGR)和哈佛大学和麻省理工学院的Broad研究所共同开发的。它最初是为人类数据,但新的PLINK 1.9以上的版本也可用于非模式生物的基因组数据。
其功能非常强大,简单列举一下相对应的功能:
- 数据管理: SNP数据格式的转换,合并两个或多个文件,提取SNP子集,以二进制文件格式压缩数据等。
- 质量控制的SNP数据统计: 计算丢失基因型率,等位基因,基因型频率,HWE测试,个体和个体对的近亲繁殖,IBS和IBD统计,LD区域计算等。
- GWAS关联分析
- Meta分析
Plink下载与安装
PLink最新版是2.0,由于我个人觉得1.9比较稳定好用,下面教程分析都是基于1.9版本的。
Plink的下载安装非常方便,由于已经编码的版本是可以直接下载的,所以只要找到相应的系统的版本就可以进行下载了,下载链接地址为:http://www.cog-genomics.org/plink2/
Linux 64-bit下载地址:
http://s3.amazonaws.com/plink1-assets/plink_linux_x86_64_20190617.zip
苹果OS X 系统下载地址:
http://s3.amazonaws.com/plink1-assets/plink_mac_20190617.zip
Windows 64-bit 系统下载地址:
http://s3.amazonaws.com/plink1-assets/plink_win64_20190617.zip
下载完解压就能直接使用了:
Plink输入格式介绍
Plink常见格式包括:ped,map,bed,fam,bim
PLINK接受VCF文件作为输入,但在PLINK中使用的首选格式是带有结尾.ped(和.map)的文件,以及带有结尾.bed(+ .bim + .fam)的较小二进制PLINK文件。这样处理起来速度会更加快。一般我们call完SNP给出的文件都是vcf文件,这里需要使用vcftool或者Plink先进行格式的转换:
使用vcftools来转换:
#vcf转ped和map
vcftools --vcf my.vcf --plink --out plink
使用plink来转换:
# vcf转ped和map
plink --vcf file.vcf --recode --out file
ped格式文件
ped文件包含每列有一个等位基因的变体信息(意味着一个变体的两个等位基因需要2列)。
看看其中一个例子:
less -S data.noIND04.miss0.5.noMT.thin10.ped
IND01 IND01 0 0 0 0 CC 0 0
IND02 IND02 0 0 0 0 0 0 0 0
IND03 IND03 0 0 0 0 0 0 AG
IND05 IND05 0 0 0 0 CCAA
AFR01 AFR01 0 0 0 0 CTAG
AFR02 AFR02 0 0 0 0 CCAG
AFR03 AFR03 0 0 0 0 0 0 AG
AFR04 AFR04 0 0 0 0 0 0 0
AFR05 AFR05 0 0 0 0 CCAG ...
每个样本有一行,前六列为:
- 第一列: Family ID表示家族,同一个家族用同一个family ID表示
- 第二列: Individual ID用来表示个体,family ID和Individual ID连起来唯一表示一个样本。
- 第三列: Paternal ID表示父本ID(如果缺少该信息则为'0')
- 第四列: Maternal ID表示父本ID(如果缺少该信息则为'0')
- 第五列: 性别代码('1'=男性,'2'=女性,'0'=未知)
- 第六列: Phenotype(表型),Plink会自己判断表型的类型,如果缺少该表型数据,可以使用-9/0/非数字来表示。
-
第七列第八列: 分别为第一个变体,第二个变体等的等位基因。缺失的数据被编码为0(或-9)。
对于上面的例子,由于都没有关于父本,母本,性别或表型的信息,因此这些列都设置为缺失数据(0或-9)。
map格式文件
map格式文件包含变体位置,用来记录每个maker(一般为SNP)的位置信息。每行一个maker。它有4列:
less data.noIND04.miss0.5.noMT.thin10.map
scf7180003948298 scf7180003948298:263 0 263
scf7180003948298 scf7180003948298:313 0 313
scf7180003948298 scf7180003948298:1268 0 1268
- 第一列: 染色体名称
- 第二列: SNP的表示符/ID
- 第三列:基因摩尔根距离,不知道就写0
- 第四列:marker在染色体上的坐标位置
常染色体应编码为1至22。以下其他染色体用于指定其他染色体类型。右边的数字代表PLINK对这些染色体的内部数字编码:这些将出现在所有输出而不是原始染色体编码中。
bed格式,fam格式和bim格式文件
map文件可以进一步转换成二进制文件(* .bed)。将家族信息,表型信息存储在单独的文件(* .fam)中并创建扩展的MAP文件(* .bim)(其中包含有关等位基因名称的信息,否则将丢失在BED文件中)
文件转化方法:
plink --file mydata --make-bed
bed格式
该格式的文件主要包含了基因型的双等位基因变异。必须附带.bim和.fam文件。用--bfile加载;可以使用--make-bed
命令生成。注意的是该格式和我们平时接触含有基因组位置的bed格式文件不同。在基因型信息中,每一行是一个个体,每一列就是一个变异。其中0、1、2分别对应了aa、Aa或aA和AA。不考虑碱基型,因为我们不关注ATGC的变化。
fam格式
该格式文件是bed格式文件附属的基因型的样本信息文件,每一行就是一个样本。
bim格式
该格式文件是bed格式文件附属的基因型扩展信息的文件,每一行是一个变异,及其注释信息。
参考资料: