生信猿funny生物信息连锁分析

Plink_2.文件格式

2018-10-16  本文已影响22人  oddxix

欢迎关注公众号:oddxix
plink的主要功能:数据处理,质量控制的基本统计,群体分层分析,单位点的基本关联分析,家系数据的传递不平衡检验,多点连锁分析,单倍体关联分析,拷贝数变异分析,Meta分析等等。
plink常见格式

#vcf转ped和map
vcftools --vcf my.vcf --plink --out plink

或者

# vcf转ped和map
plink --vcf file.vcf --recode --out file

ped文件格式

PED文件主要是储存每个样本的基因型的,每行代表一个样本,每列的具体含义如下:

通过以上6个必须的字段,可以完整的映射到某一性状的家系图上。

如果是自然群体,那就把family ID和individual ID都填一样的就行了。父母的ID就填0,代表缺失。
第6列是Phenotype(表型),每个PED文件第六列必须表示表型值,且也只能有这一列表型值。质量性状必须转换为0、1、2。Plink会自己判断表现类型(based on whether a value other than 0, 1, 2 or the missing genotype code is observed)。有几个保留值注意一下:

从第7列开始是Phenotype(基因型,A,C,G,T),可以有很多列,一直往后写,TAB键隔开就好了。
最后做出来就是这个样子了:


第一列表示家族,属于同一家族,于是第二列Individual ID要不一样才能保证family ID和Individual ID连起来唯一表示一个样本。由于没有亲缘关系Paternal 和Maternal 都为0 ,性别都为男性


第一列表示家族,属于不同家族,于是第二列Individual ID都用1表示。没有亲缘关系,1和2为男性,3和4为女性。

有时,数据以多种不同的格式:例如,基因型信息只有一个ID列后跟所有SNP数据,其他家族和表型信息驻留在单独的文件中。有时可以直接读取这些文件,而不必重新创建新文件。
--no-fid 表示没有Family ID列
--no-parents 表示没有父母的ID
--no-sex 表示没有性别
--no-pheno表示没有表型

map文件格式

MAP文件主要是用来记录每个maker(一般为SNP)的位置信息。
每行一个maker,每列的含义如下:


常染色体应编码为1至22.以下其他染色体用于指定其他染色体类型。右边的数字代表PLINK对这些染色体的内部数字编码:这些将出现在所有输出而不是原始染色体编码中。



map文件示例:


为了节省空间和时间,可以制作二进制文件(* .bed)。将谱系/表型信息存储在单独的文件(* .fam)中并创建扩展的MAP文件(* .bim)(其中包含有关等位基因名称的信息,否则将丢失在BED文件中)
使用命令:

plink --file mydata --make-bed

产生的结果文件:


.fam和.bim文件仍然是纯文本文件:可以使用标准文本编辑器查看这些文件,.bed文件是二进制文件无法查看。

bed文件格式

这里的bed和我们genome里的区域文件bed完全不同
.bed:Primary representation of genotype calls at biallelic variants. Must be accompanied by .bim and .fam files. Loaded with --bfile; generated in many situations, most notably when the --make-bed command is used. Do not confuse this with the UCSC Genome Browser's BED format, which is totally different.基因型信息。所以转换后就是一个matrix,每一行是一个个体,每一列就是一个变异。其中0、1、2分别对应了aa、Aa或aA和AA。不考虑碱基型,因为我们不关注ATGC的变化。

fam文件格式

Sample information file accompanying a .bed binary genotype table. 样本信息。每一行就是一个样本。

bim文件格式

Extended variant information file accompanying a .bed binary genotype table. 每一行是一个变异,及其注释信息。
这将将谱系/表型信息存储在单独的文件(* .fam)中并创建扩展的MAP文件(* .bim)(其中包含有关等位基因名称的信息,否则将丢失在BED文件中)

参考:
http://zzz.bwh.harvard.edu/plink/data.shtml#map
https://www.cnblogs.com/zkkaka/p/8931318.html
https://www.cnblogs.com/leezx/p/9013615.html

转载请注明出处:
简书作者:oddxix
微信公众号:oddxix

上一篇下一篇

猜你喜欢

热点阅读