如何从NCBI下载基因组序列和注释文件并统计基因个数
2019-06-24 本文已影响232人
秦城听雪
从NCBI下载一个物种的基因组文件。假设我们要下载一个叫做Tetranychus urticae的物种,首先在NCBI上genome中搜索Tetranychus urticae。得到如下截图:
image.png
然后复制genome和gff的下载地址
在xshell中下载,命令如下
wget -c ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/239/435/GCF_000239435.1_ASM23943v1/GCF_000239435.1_ASM23943v1_genomic.fna.gz
wget -c ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/239/435/GCF_000239435.1_ASM23943v1/GCF_000239435.1_ASM23943v1_genomic.gff.gz
解压:
gunzip GCF_000239435.1_ASM23943v1_genomic.fna.gz
gunzip GCF_000239435.1_ASM23943v1_genomic.gff.gz
查看gff文件
less -S GCF_000239435.1_ASM23943v1_genomic.gff
image.png
可以看出关于基因信息在第三列,统计该物种注释出的基因数目:
cut -f3 GCF_000239435.1_ASM23943v1_genomic.gff|grep 'gene'|grep -v 'pseudogene'|wc -l
***pseudogene并不是我们想要的,因此,在上述命令中我把它去除了。