GWAS分析-说人话（17）- 基因型数据我就要用Excel打开

2021-02-15 本文已影响0人医学小蛋散

前言

众所周知，一般GWAS分析中SNPs都是上几十万个的，

但是样本顶多也就几千个嘛（1980个新冠患者GWAS还发了NEJM），

亚组分析可以少到几百个，

但是如果用普通的--recode --tab，那么有十几万列的数据Excel是不可能完全打开的。

怎么办？

一些基本常识：

Excel2003版最大行数是65536行，最大列数是256列。

Excel2007开始的版本最大行数是1048576行，2007以上版本是16384列。

所以，所谓的大数据在Excel是“无法分析”的。

遇到这个时候，我们就要灵活变通一下了：转置数据的重要性。

弯路：

当数据分析做多了，我们就会天真地以为用R，用Terminal 的Perl语法转置数据之后输出。

像极了爱情，我们用尽华丽的方法取悦对方，到最后朴实无华的长期陪伴才是我们所忘记的～

其实Plink里面就有了转置（--recode transpose ）这个玩意：

当我们使用一下代码时：

plink --noweb --extract SNP15000.txt --bfile male001QC --out male_snps_15000 --recode --tab

数据是长这样的：

每一列都是一个SNP的基因型，然后如果你要做全部的SNP的话，根本不可能打开完全（Excel会提示）。

怎么办？--recode transpose了解一下：

plink --noweb --bfile male001QC --recode transpose --out 123 --tab

这个时候就会显示如下：

这个时候数据就可以显示完全了，行变成了SNP的名字，本数据集共329256个SNPs，Excel 2007以上都是1048576行了～

然后，文件夹中就会出现以.tfam和.tped结尾的文件，上面的图是.tped结尾的文件，要对应样本，就要看.tfam结尾的文件。新建一行，复制，转置黏贴成为表头不用截图了吧？

后记：

我们一追再追，只想追趕生信裡的一分一秒，

原來多麼可笑，解决问题的真正目標就在Plink里面。

有了这个数据，就可以做各种基于基因型的骚操作分析啦～

欢迎关注微博：医学小蛋散，如果有用的话，记得关注点赞哦～

文中提到的NEJM：Severe Covid-19 GWAS Group, Ellinghaus D, Degenhardt F, et al. Genomewide Association Study of Severe Covid-19 with Respiratory Failure. N Engl J Med. 2020;383(16):1522-1534. doi:10.1056/NEJMoa2020283

当然了，这是新冠，普通疾病的样本数可以去到几万，乃至几十万了，如（“Association analysis identifies 65 new breast cancer risk loci”共137,045例的这种情况（超过了16384列），就要考虑和比尔盖茨聊一下新版本的Excel了～

GWAS分析-说人话（17）- 基因型数据我就要用Excel打开

前言

一些基本常识：

弯路：

其实Plink里面就有了转置（--recode transpose ）这个玩意：

怎么办？--recode transpose了解一下：

后记：

猜你喜欢

热点阅读