基因组分析GWAS分析-说人话

GWAS分析-说人话(17)- 基因型数据我就要用Excel打开

2021-02-15  本文已影响0人  医学小蛋散

前言

众所周知,一般GWAS分析中SNPs都是上几十万个的,

但是样本顶多也就几千个嘛(1980个新冠患者GWAS还发了NEJM),

亚组分析可以少到几百个,

但是如果用普通的--recode --tab,那么有十几万列的数据Excel是不可能完全打开的。

怎么办?


一些基本常识:

Excel2003版最大行数是65536行,最大列数是256列

Excel2007开始的版本最大行数是1048576行,2007以上版本是16384列

所以,所谓的大数据在Excel是“无法分析”的。

遇到这个时候,我们就要灵活变通一下了:转置数据的重要性。

弯路:

当数据分析做多了,我们就会天真地以为用R,用Terminal 的Perl语法转置数据之后输出。

像极了爱情,我们用尽华丽的方法取悦对方,到最后朴实无华的长期陪伴才是我们所忘记的~

其实Plink里面就有了转置(--recode transpose )这个玩意:

当我们使用一下代码时:

plink --noweb --extract SNP15000.txt  --bfile male001QC --out male_snps_15000 --recode --tab

数据是长这样的:

每一列都是一个SNP的基因型,然后如果你要做全部的SNP的话,根本不可能打开完全(Excel会提示)。

怎么办?--recode transpose了解一下:

plink --noweb --bfile male001QC --recode transpose --out 123 --tab

这个时候就会显示如下:

这个时候数据就可以显示完全了,行变成了SNP的名字,本数据集共329256个SNPs,Excel 2007以上都是1048576行了~

然后,文件夹中就会出现以.tfam和.tped结尾的文件,上面的图是.tped结尾的文件,要对应样本,就要看.tfam结尾的文件。新建一行,复制,转置黏贴成为表头不用截图了吧?

后记:

我们一追再追,只想追趕生信裡的一分一秒,

原來多麼可笑,解决问题的真正目標就在Plink里面。

有了这个数据,就可以做各种基于基因型的骚操作分析啦~


欢迎关注微博:医学小蛋散,如果有用的话,记得关注点赞哦~

文中提到的NEJM:Severe Covid-19 GWAS Group, Ellinghaus D, Degenhardt F, et al. Genomewide Association Study of Severe Covid-19 with Respiratory Failure. N Engl J Med. 2020;383(16):1522-1534. doi:10.1056/NEJMoa2020283

当然了,这是新冠,普通疾病的样本数可以去到几万,乃至几十万了,如(“Association analysis identifies 65 new breast cancer risk loci”共137,045例 的这种情况(超过了16384列),就要考虑和比尔盖茨聊一下新版本的Excel了~

上一篇下一篇

猜你喜欢

热点阅读