GWASGWASGWAS分析-说人话

GWAS分析-说人话(3)网络数据下载后的处理

2019-11-22  本文已影响0人  医学小蛋散

前言

上天会告诉你那个文件才是需要用的吗?

不会!

但我会!(点个赞,大个赏呗~)


数据下载后,相信我,小白连看哪个数据都会不知道的!

当然,数据分析的第0章,数据下载,也不是普通人可以handle的,

我可以说一天!~

首先我们需要申请dbGAP的权限,通过特殊的工具下载数据到硬盘中(或者服务器中)。

数据长这个样子:

我们要的数据在Genotype文件夹里面

一直切换到“.CADM”,然后你就会看到“map”和“ped”文件。(GWAS分析-说人话(2)认识文件名

首先,这里有一个经验性的注意地方:

硬盘可能不能读写数据,意味着输入指令后,不能够输出任何结果到硬盘上(小白就会一直报错,一直不知道为什么“我又错了”!)

所以要在自己的电脑,想要的地方,创建一个文件夹

(当然,你可以右建新建,不过这个做法是会被鄙视的!)

没错,这就是老屁股对新人的态度~

让我来告诉小白如何辗压“老屎忽”:

1.首先,cd到想要的路径

2.然后,midir XXX

(大神请忽略下面复习内容:

#复习:

#(删除文件夹实例:

#rm -rf/User/Dhyana/desktop (当然也可以cd到该文件夹,rm -rf 文件夹名称,删除)

#将会删除 /User/Dhyana/desktop目录以及其下所有文件、文件夹

#删除文件使用实例:

#rm -f /User/Dhyana/desktop/test.py

#将会强制删除/User/Dhyana/desktop/test.py这个文件)

#使用这个rm -rf的时候一定要格外小心,linux没有回收站的,删除之后再想找回就很难了)

说人话:

可能不能直接在硬盘上写数据,换个自己的工作目录!~

接着,开始下面的plink操作:

把map和ped文件转换成2进制文件(当然是为了后续分析用啊,不然才难得搞呢!)

(为什么要有这个转换?天下武功唯快不破,二进制文件电脑看得高兴啊!~)

(大神请忽略下面复习内容:

#复习一下plink的基本格式:

#plink --filechr2--make-bed --outchr2

调动Plink --处理得文件 --执行的操作 --给个名字

#把map和ped文件转换成2进制文件的代码:

#plink --filechr2--make-bed --outchr2

#这个基本的操作,就是要转化chr2(想要的系列文件,plink都是一组组数据一起处理的)成一个bed文件

#即:PED/MAP转为二进制格式)

好吧,反正有事网上“不华不实”的参考代码!!!!!

说人话:

现实是这样子的:

/Users/seedson/Downloads/plink_mac_20190617/plink --file /Volumes/Seagate\ Backup\ Plus\ Drive/70389_LungSomke/CGEMS/GENEVA_LungCancer/phs000093v2/p2/genotype/phg000206v1/phg000206.v1.GENEVA_LungCancer.genotype-imputed-data.c1.CADM/chr2 --make-bed --out chr2

我会给大家说人话的:

#调动Plink(查找你的plink在哪里了:

/Users/seedson/Downloads/plink_mac_20190617/)

#输入文件( 查找你的文件在哪里,拖进terminal:

/Volumes/Seagate\ Backup\ Plus\ Drive/70389_LungSomke/CGEMS/GENEVA_LungCancer/phs000093v2/p2/genotype/phg000206v1/phg000206.v1.GENEVA_LungCancer.genotype-imputed-data.c1.CADM/chr2 

#产生2进制文件

--make-bed 

#命名一个名字

--out chr2 

这是在个人的mac上运算的,考虑计算能力,只能一个一个做了

(大神可以在服务器上直接全跑了,求不要鄙视~)

运行时的样子:

会显示运行进度

运行后,在指定位置(刚刚cd到的地方)产生的数据:

产生的数据

#本例处理的是染色体3,后面提取的染色体,走的一样的程序,因为我要提取不同的染色体,所以其实就是不断改名字的反复操作了(如2,改3,3改5,根据染色体而定)如:

染色体3:

/Users/seedson/Downloads/plink_mac_20190617/plink --file /Volumes/Seagate\ Backup\ Plus\ Drive/70389_LungSomke/CGEMS/GENEVA_LungCancer/phs000093v2/p2/genotype/phg000206v1/phg000206.v1.GENEVA_LungCancer.genotype-imputed-data.c1.CADM/chr3 --make-bed --out chr3 

染色体4:

/Users/seedson/Downloads/plink_mac_20190617/plink --file /Volumes/Seagate\ Backup\ Plus\ Drive/70389_LungSomke/CGEMS/GENEVA_LungCancer/phs000093v2/p2/genotype/phg000206v1/phg000206.v1.GENEVA_LungCancer.genotype-imputed-data.c1.CADM/chr4 --make-bed --out chr4 

等等.......(我已经粗体需要修改的部分了,不用我把23个染色体都写出来吧?)

以上

上一篇下一篇

猜你喜欢

热点阅读