Blast+识别病毒基因组在文昌鱼中的整合

2020-08-11  本文已影响0人  LukeWu1129

大家好,我是一个生物信息学专业本科生,第一次发博文。

最近老师留了一个项目,要在文昌鱼组装基因组中寻找病毒整合的序列。经过一天的学习,我把思路整理了一下。

一、下载NCBI病毒基因组序列到服务器

```

wget https://ftp.ncbi.nih.gov/genomes/Viruses/all.fna.tar.gz

tar -xzvf all.fna.tar.gz

```

如果你想下载别的形式的基因组,比如氨基酸序列,可以在上述网址中查看。

二、如何利用本地Blast进行比对

Blast+的下载,可以用conda或者直接在NCBI官网进行下载。conda的好处就是比较无脑,不需要担心配置什么的。

然后很重要的一个问题就是,上述解压缩后的文件,是这样的:一个文件夹下有7530种病毒,各自占一个文件夹。每种病毒文件夹下,是这种病毒的序列(共9569条序列)。

然而blast比对需要建库,而且必须是对一个fasta序列文件进行建库。那么现在就需要将多个文件夹下的.fna文件合并。经过一番搜索,发现下面这个命令非常的好用。

```

find /path/to/parent -name '*.fna' -exec cp -t /path/to/newdir  {} + 

cat *.fna > ~/viral.fna

```

接下来对所有病毒的序列进行建库,就可以用文昌鱼基因组去比对啦!

```

makeblastdb -in viral.fna -dbtype nucl -out virus_by_wu 

blastn -query amphi_genome.fasta -db virus_by_wu -out result.txt

```

最终找到了44个病毒基因组序列和对应的文昌鱼的基因组中的序列相似度比较高!

三、

多查查资料,或者尝试用英文搜索一些linux的命令行问题都是可以的!

比如 多个文件夹下合并的那个命令,就是靠 "make files in multiple directories into one directory" 这种“傻瓜”方式搜出来的!见下面这个网站,是一个Ubuntu系统的交流论坛。

command line - How to copy files from multiple directories? - Ask Ubuntu

上一篇下一篇

猜你喜欢

热点阅读