GWAS分析-说人话(3)网络数据下载后的处理
前言
上天会告诉你那个文件才是需要用的吗?
不会!
但我会!(点个赞,大个赏呗~)
数据下载后,相信我,小白连看哪个数据都会不知道的!
当然,数据分析的第0章,数据下载,也不是普通人可以handle的,
我可以说一天!~
首先我们需要申请dbGAP的权限,通过特殊的工具下载数据到硬盘中(或者服务器中)。
数据长这个样子:
我们要的数据在Genotype文件夹里面一直切换到“.CADM”,然后你就会看到“map”和“ped”文件。(GWAS分析-说人话(2)认识文件名)
首先,这里有一个经验性的注意地方:
硬盘可能不能读写数据,意味着输入指令后,不能够输出任何结果到硬盘上(小白就会一直报错,一直不知道为什么“我又错了”!)
所以要在自己的电脑,想要的地方,创建一个文件夹
(当然,你可以右建新建,不过这个做法是会被鄙视的!)
没错,这就是老屁股对新人的态度~
让我来告诉小白如何辗压“老屎忽”:
1.首先,cd到想要的路径
2.然后,midir XXX
(大神请忽略下面复习内容:
#复习:
#(删除文件夹实例:
#rm -rf/User/Dhyana/desktop (当然也可以cd到该文件夹,rm -rf 文件夹名称,删除)
#将会删除 /User/Dhyana/desktop目录以及其下所有文件、文件夹
#删除文件使用实例:
#rm -f /User/Dhyana/desktop/test.py
#将会强制删除/User/Dhyana/desktop/test.py这个文件)
#使用这个rm -rf的时候一定要格外小心,linux没有回收站的,删除之后再想找回就很难了)
说人话:
可能不能直接在硬盘上写数据,换个自己的工作目录!~
接着,开始下面的plink操作:
把map和ped文件转换成2进制文件(当然是为了后续分析用啊,不然才难得搞呢!)
(为什么要有这个转换?天下武功唯快不破,二进制文件电脑看得高兴啊!~)
(大神请忽略下面复习内容:
#复习一下plink的基本格式:
#plink --filechr2--make-bed --outchr2
调动Plink --处理得文件 --执行的操作 --给个名字
#把map和ped文件转换成2进制文件的代码:
#plink --filechr2--make-bed --outchr2
#这个基本的操作,就是要转化chr2(想要的系列文件,plink都是一组组数据一起处理的)成一个bed文件
#即:PED/MAP转为二进制格式)
好吧,反正有事网上“不华不实”的参考代码!!!!!
说人话:
现实是这样子的:
/Users/seedson/Downloads/plink_mac_20190617/plink --file /Volumes/Seagate\ Backup\ Plus\ Drive/70389_LungSomke/CGEMS/GENEVA_LungCancer/phs000093v2/p2/genotype/phg000206v1/phg000206.v1.GENEVA_LungCancer.genotype-imputed-data.c1.CADM/chr2 --make-bed --out chr2
我会给大家说人话的:
#调动Plink(查找你的plink在哪里了:
/Users/seedson/Downloads/plink_mac_20190617/)
#输入文件( 查找你的文件在哪里,拖进terminal:
/Volumes/Seagate\ Backup\ Plus\ Drive/70389_LungSomke/CGEMS/GENEVA_LungCancer/phs000093v2/p2/genotype/phg000206v1/phg000206.v1.GENEVA_LungCancer.genotype-imputed-data.c1.CADM/chr2
#产生2进制文件
--make-bed
#命名一个名字
--out chr2
这是在个人的mac上运算的,考虑计算能力,只能一个一个做了
(大神可以在服务器上直接全跑了,求不要鄙视~)
运行时的样子:
会显示运行进度运行后,在指定位置(刚刚cd到的地方)产生的数据:
产生的数据#本例处理的是染色体3,后面提取的染色体,走的一样的程序,因为我要提取不同的染色体,所以其实就是不断改名字的反复操作了(如2,改3,3改5,根据染色体而定)如:
染色体3:
/Users/seedson/Downloads/plink_mac_20190617/plink --file /Volumes/Seagate\ Backup\ Plus\ Drive/70389_LungSomke/CGEMS/GENEVA_LungCancer/phs000093v2/p2/genotype/phg000206v1/phg000206.v1.GENEVA_LungCancer.genotype-imputed-data.c1.CADM/chr3 --make-bed --out chr3
染色体4:
/Users/seedson/Downloads/plink_mac_20190617/plink --file /Volumes/Seagate\ Backup\ Plus\ Drive/70389_LungSomke/CGEMS/GENEVA_LungCancer/phs000093v2/p2/genotype/phg000206v1/phg000206.v1.GENEVA_LungCancer.genotype-imputed-data.c1.CADM/chr4 --make-bed --out chr4
等等.......(我已经粗体需要修改的部分了,不用我把23个染色体都写出来吧?)