生物信息Bioinformatics生物信息软件

Plink文件格式介绍(一)

2016-08-19  本文已影响3254人  银色麦穗

introduction

Plink算是生物信息最常用的软件之一了,而且很多软件的输入也会使用Plink的文件格式。这次我们来一起认识一下Plink中最常用的两种格式,.ped和.map。

PED文件介绍:

PED文件主要是储存每个样本的基因型的,每行代表一个样本,每列的具体含义如下:

  Family ID
  Individual ID
  Paternal ID
  Maternal ID
  Sex (1=male; 2=female; other=unknown)
  Phenotype

如果是自然群体,那就把family ID和individual ID都填一样的就行了。父母的ID就填0,代表缺失。
第6列是Phenotype(表型),每个PED文件第六列必需时表型值,也只能有这一列表型值。质量性状必须转换为0、1、2。Plink会自己判断表现类型(based on whether a value other than 0, 1, 2 or the missing genotype code is observed)。有几个保留值注意一下:

   -9 missing
    0 unaffected
    1 affected

从第7列开始是Phenotype(基因型,A,C,G,T),可以有很多列,一直往后写,TAB键隔开就好了。
最后做出来就是这个样子了:

  FAM001  1  0 0  1  2  A A  G G  A C 
  FAM001  2  0 0  1  2  A A  A G  0 0 

详见这里

MAP文件介绍

MAP文件主要是用来记录每个maker(一般为SNP)的位置信息。
每行一个maker,每列的含义如下:

 chromosome (1-22, X, Y or 0 if unplaced)
 rs# or snp identifier
 Genetic distance (morgans)
 Base-pair position (bp units)

第一列自不用说,第二列是SNP的名字,起个便于管理的名字就好。第三列是摩尔根距离,不知道的话写0就行了。第四列是在染色体上的坐标位置。

详见这里

结语

关于这些文件还有很多细节和特殊情况的处理没有讲,后面有时间了再补充吧,着急用的话就点祥见这里,超链接到了plink官网的对于说明上了。

上一篇下一篇

猜你喜欢

热点阅读