下载参考基因组后进行完整性检验、建立索引

2019-12-29  本文已影响0人  vicLeo

摘录自:https://blog.51cto.com/xiangpang/1711603

               https://www.jianshu.com/p/9b15fa1f1a6f

               https://www.jianshu.com/p/75404f813e0a

md5sum命令用于生成和校验文件的md5值。它会逐位对文件的内容进行校验。是文件的内容,与文件名无关,也就是文件内容相同,其md5值相同。在网络传输时,我们校验源文件获得其md5sum,传输完毕后,校验其目标文件,并对比如果源文件和目标文件md5 一致的话,则表示文件传输无异常。否则说明文件在传输过程中未正确传输。以hg38为例进行操作。

一、下载 所需要的hg38.fa.gz 和质量控制文件md5sum.txt,进行完整性检验。

http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/

cat md5sum.txt

挑选 1c9dcaddfa41027f17cd8f7a82c7293b hg38.fa.gz 

echo 1c9dcaddfa41027f17cd8f7a82c7293b hg38.fa.gz > check_md5sum_hg38.md5

md5sum -c check_md5sum_hg38.md5  #测试时使用的是".md5"后缀,注意前后名称要保持一致

hg38.fa.gz: OK #表示所下载的hg38文件及格

md5sum的选项:

-b 以二进制模式读入文件内容

-t 以文本模式读入文件内容

-c 根据已生成的md5值,对现存文件进行校验

--status 校验完成后,不生成错误或正确的提示信息,可以通过命令的返回值来判断。

二、解压文件hg38.fa.gz做准备

gunzip hg38.fa.gz   ##谨记!

由于建立索引的时间过长,建议挂到服务器后台运行

bowtie2-build hg38.fa hg38 #bowtie2 建立索引

nohup bowtie2-build hg38.fa hg38 & > nohup01.out

PS: 下载参考基因组及比对软件的代码:

下载的小鼠基因组

cd ~/reference

mkdir -p  genome/mm10  && cd genome/mm10

nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz  &

tar zvfx chromFa.tar.gz

cat *.fa > mm10.fa

rm chr*.fa

下载hg19:

cd ~/reference

mkdir -p genome/hg19  && cd genome/hg19

nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &

tar zvfx chromFa.tar.gz

cat *.fa > hg19.fa

rm chr*.fa

下载hg38

cd ~/reference

mkdir -p genome/hg38  && cd genome/hg38

nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz  &

bowtie软件建立索引文件

cd ~/reference

mkdir -p index/bowtie && cd index/bowtie

nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build  ~/reference/genome/hg19/hg19.fa  ~/reference/index/bowtie/hg19 1>hg19.bowtie_index.log 2>&1 &

nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build  ~/reference/genome/hg38/hg38.fa  ~/reference/index/bowtie/hg38 1>hg38.bowtie_index.log 2>&1 &

nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build  ~/reference/genome/mm10/mm10.fa  ~/reference/index/bowtie/mm10 1>mm10.bowtie_index.log 2>&1 &

bwa软件建立索引文件

cd ~/reference

mkdir -p index/bwa && cd index/bwa

nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index  -a bwtsw  -p ~/reference/index/bwa/hg19  ~/reference/genome/hg19/hg19.fa 1>hg19.bwa_index.log 2>&1  &

nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index  -a bwtsw  -p ~/reference/index/bwa/hg38  ~/reference/genome/hg38/hg38.fa 1>hg38.bwa_index.log 2>&1  &

nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index  -a bwtsw  -p ~/reference/index/bwa/mm10  ~/reference/genome/mm10/mm10.fa 1>mm10.bwa_index.log 2>&1  &

hisat软件建立索引文件

cd ~/reference

mkdir -p index/hisat && cd index/hisat

nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg19.tar.gz  &

nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg38.tar.gz  &

nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/grcm38.tar.gz &

tar zxvf hg19.tar.gz

tar zxvf grcm38.tar.gz

tar zxvf hg38.tar.gz

上一篇下一篇

猜你喜欢

热点阅读