GenomeWideSNP_6.cdf GenomeWideS
最近在做Affy的SNP 6 芯片家系数据做连锁分析,找家系的致病性基因,拿到的是 *.CEL 文件,然后用MERLIN做连锁分析,在准备ped文件时,需要用到每个marker的基因型,MERLIN要求每个基因型是2个数字

于是我crlmm包从CEL文件中提取基因型,但是提取到的基因型是单个数字,即 genotype calls (1 - AA; 2 - AB; 3 - BB),而这单个数字基因型在MERLIN中用了会报错,MERLIN的文档中介绍的是2个数字表示一个基因型。从crlmm包中没发现可以生成2个数字的基因型的方法,网友们要是发现有方法请评论区指导一下。
require(oligoClasses)
library(crlmm)
library(hapmapsnp6)
#path <- system.file("celFiles", package="hapmapsnp6")
path <- 'D:/celData'
path2 <- 'D:/outfile/'
celFiles <- list.celfiles(path, full.names=TRUE)
crlmmResult <- crlmm(celFiles, verbose=FALSE)
genotype <- calls(crlmmResult) # genotype calls (1 - AA; 2 - AB; 3 - BB);
score <- confs(crlmmResult) # confidence scores
snp <- crlmmResult[["SNR"]]
samplename <- colnames(crlmmResult)
gender <- as.data.frame(samplename)
gender$gend <- crlmmResult$gender
ofile1 <- paste(path2, '/genotype.xls', sep = '')
ofile2 <- paste(path2, '/score.xls', sep = '')
ofile3 <- paste(path2, '/gender.xls', sep = '')
因此,谷歌了一大圈找了一些软件,最终选择了官方软件 apt-probeset-genotype,该软件用法:
apt-probeset-genotype \
-o results_dir \
--cdf-file $libpath/GenomeWideSNP_6.cdf \
--chrX-probes $libpath/GenomeWideSNP_6.chrXprobes \
--chrY-probes $libpath/GenomeWideSNP_6.chrYprobes \
--special-snps $libpath/GenomeWideSNP_6.specialSNPs \
--annotation-file $libpath/GenomeWideSNP_6.na35.annot.csv \
--output-probabilities true \
--summaries true \
--read-models-birdseed $libpath/GenomeWideSNP_6.birdseed-v2.models \
--analysis birdseed-v2 \
--write-models true \
--writeOldStyleFeatureEffectsFile true \
--reference-profile reference.profile \
oridata/*.CEL
这个软件有windows版和linux版,我用的linux版,下载路径:
https://www.thermofisher.com/hk/en/home/life-science/microarray-analysis/microarray-analysis-partners-programs/affymetrix-developers-network/affymetrix-power-tools.html
这个软件需要用到GenomeWideSNP_6.cdf 和 GenomeWideSNP_6.birdseed-v2.models 这2个文件,很多教程中的下载链接都失效了,经过一番折腾,终于在下面的网站中找到了,最新的下载路径:
https://www.thermofisher.com/hk/en/home/life-science/microarray-analysis/microarray-data-analysis/genechip-array-library-files.html

annotation file 下载路径:
https://www.thermofisher.com/hk/en/home/life-science/microarray-analysis/microarray-data-analysis/genechip-array-annotation-files.html

这个annotation 文件加压后有个 AFFX_README-NetAffx-CSV-Files.txt 的描述性文件,可以好好看看。
上述命令跑完后,发现结果也是1个数字的基因型!!!
这说明,即便脑袋不滑坡,困难仍比办法多。
只能手动转换了:
AA=0/0 AB=0/1 BB=1/1
https://bioinf.wehi.edu.au/software/linkdatagen/Linkdatagen_manual.pdf
