GWAS分析-说人话(17)- 基因型数据我就要用Excel打开
前言
众所周知,一般GWAS分析中SNPs都是上几十万个的,
但是样本顶多也就几千个嘛(1980个新冠患者GWAS还发了NEJM),
亚组分析可以少到几百个,
但是如果用普通的--recode --tab,那么有十几万列的数据Excel是不可能完全打开的。
怎么办?
一些基本常识:
Excel2003版最大行数是65536行,最大列数是256列。
Excel2007开始的版本最大行数是1048576行,2007以上版本是16384列。
所以,所谓的大数据在Excel是“无法分析”的。
遇到这个时候,我们就要灵活变通一下了:转置数据的重要性。
弯路:
当数据分析做多了,我们就会天真地以为用R,用Terminal 的Perl语法转置数据之后输出。
像极了爱情,我们用尽华丽的方法取悦对方,到最后朴实无华的长期陪伴才是我们所忘记的~
其实Plink里面就有了转置(--recode transpose )这个玩意:
当我们使用一下代码时:
plink --noweb --extract SNP15000.txt --bfile male001QC --out male_snps_15000 --recode --tab
数据是长这样的:
每一列都是一个SNP的基因型,然后如果你要做全部的SNP的话,根本不可能打开完全(Excel会提示)。怎么办?--recode transpose了解一下:
plink --noweb --bfile male001QC --recode transpose --out 123 --tab
这个时候就会显示如下:
这个时候数据就可以显示完全了,行变成了SNP的名字,本数据集共329256个SNPs,Excel 2007以上都是1048576行了~然后,文件夹中就会出现以.tfam和.tped结尾的文件,上面的图是.tped结尾的文件,要对应样本,就要看.tfam结尾的文件。新建一行,复制,转置黏贴成为表头不用截图了吧?
后记:
我们一追再追,只想追趕生信裡的一分一秒,
原來多麼可笑,解决问题的真正目標就在Plink里面。
有了这个数据,就可以做各种基于基因型的骚操作分析啦~
欢迎关注微博:医学小蛋散,如果有用的话,记得关注点赞哦~
文中提到的NEJM:Severe Covid-19 GWAS Group, Ellinghaus D, Degenhardt F, et al. Genomewide Association Study of Severe Covid-19 with Respiratory Failure. N Engl J Med. 2020;383(16):1522-1534. doi:10.1056/NEJMoa2020283
当然了,这是新冠,普通疾病的样本数可以去到几万,乃至几十万了,如(“Association analysis identifies 65 new breast cancer risk loci”共137,045例 的这种情况(超过了16384列),就要考虑和比尔盖茨聊一下新版本的Excel了~