下载参考基因组后进行完整性检验、建立索引
摘录自:https://blog.51cto.com/xiangpang/1711603
https://www.jianshu.com/p/9b15fa1f1a6f
https://www.jianshu.com/p/75404f813e0a
md5sum命令用于生成和校验文件的md5值。它会逐位对文件的内容进行校验。是文件的内容,与文件名无关,也就是文件内容相同,其md5值相同。在网络传输时,我们校验源文件获得其md5sum,传输完毕后,校验其目标文件,并对比如果源文件和目标文件md5 一致的话,则表示文件传输无异常。否则说明文件在传输过程中未正确传输。以hg38为例进行操作。
一、下载 所需要的hg38.fa.gz 和质量控制文件md5sum.txt,进行完整性检验。
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/
cat md5sum.txt
挑选 1c9dcaddfa41027f17cd8f7a82c7293b hg38.fa.gz
echo 1c9dcaddfa41027f17cd8f7a82c7293b hg38.fa.gz > check_md5sum_hg38.md5
md5sum -c check_md5sum_hg38.md5 #测试时使用的是".md5"后缀,注意前后名称要保持一致
hg38.fa.gz: OK #表示所下载的hg38文件及格
md5sum的选项:
-b 以二进制模式读入文件内容
-t 以文本模式读入文件内容
-c 根据已生成的md5值,对现存文件进行校验
--status 校验完成后,不生成错误或正确的提示信息,可以通过命令的返回值来判断。
二、解压文件hg38.fa.gz做准备
gunzip hg38.fa.gz ##谨记!
由于建立索引的时间过长,建议挂到服务器后台运行
bowtie2-build hg38.fa hg38 #bowtie2 建立索引
nohup bowtie2-build hg38.fa hg38 & > nohup01.out
PS: 下载参考基因组及比对软件的代码:
下载的小鼠基因组
cd ~/reference
mkdir -p genome/mm10 && cd genome/mm10
nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz &
tar zvfx chromFa.tar.gz
cat *.fa > mm10.fa
rm chr*.fa
下载hg19:
cd ~/reference
mkdir -p genome/hg19 && cd genome/hg19
nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
tar zvfx chromFa.tar.gz
cat *.fa > hg19.fa
rm chr*.fa
下载hg38
cd ~/reference
mkdir -p genome/hg38 && cd genome/hg38
nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz &
bowtie软件建立索引文件
cd ~/reference
mkdir -p index/bowtie && cd index/bowtie
nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build ~/reference/genome/hg19/hg19.fa ~/reference/index/bowtie/hg19 1>hg19.bowtie_index.log 2>&1 &
nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build ~/reference/genome/hg38/hg38.fa ~/reference/index/bowtie/hg38 1>hg38.bowtie_index.log 2>&1 &
nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build ~/reference/genome/mm10/mm10.fa ~/reference/index/bowtie/mm10 1>mm10.bowtie_index.log 2>&1 &
bwa软件建立索引文件
cd ~/reference
mkdir -p index/bwa && cd index/bwa
nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index -a bwtsw -p ~/reference/index/bwa/hg19 ~/reference/genome/hg19/hg19.fa 1>hg19.bwa_index.log 2>&1 &
nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index -a bwtsw -p ~/reference/index/bwa/hg38 ~/reference/genome/hg38/hg38.fa 1>hg38.bwa_index.log 2>&1 &
nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index -a bwtsw -p ~/reference/index/bwa/mm10 ~/reference/genome/mm10/mm10.fa 1>mm10.bwa_index.log 2>&1 &
hisat软件建立索引文件
cd ~/reference
mkdir -p index/hisat && cd index/hisat
nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg19.tar.gz &
nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg38.tar.gz &
nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/grcm38.tar.gz &
tar zxvf hg19.tar.gz
tar zxvf grcm38.tar.gz
tar zxvf hg38.tar.gz