blast比对

2022-04-06  本文已影响0人  Cheng_WANG

使用blast在鱼的基因组上识别C-lectin基因

1. 下载基因组

wget -c ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/002/994/505/GCA_002994505.1_ASM299450

v1/GCA_002994505.1_ASM299450v1_genomic.fna.gz -O Seriola_quinqueradiata.fa.gz

gunzip Seriola_quinqueradiata.fa.gz

2. 获得C-lectin基因序列

cat > C_lectin.fa

>C-LECTIN

MKTLLILSVVLCAALSVRAAAVVPAEAATAQLGDKAAPEPEAVKDTAVEDTAVEETAVEDTAVEETAVEDTAVEETAVED

TAVEETAVEDTAVEDTAVEDTAVEDTAVEDTAVEETAVEDTAVEDTAVEDTAVAAGRPAGLRQTRLSFCLDGWQSFSGKC

YFLANHPDSWANAERFCASYEGSLASVGSIWEYNFLQRMVKTGGHAFAWIGGYYFQGEWRWEDGSRFDY

SNWDTPRSTAYYQCLLLNSQVSMGWSNNGCNMNFPFVCQVRQLNC

3. 构建基因组数据库

makeblastdb -in Seriola_quinqueradiata.fa -dbtype nucl -input_type fasta -out SerRivdb

-in 输入的建库序列文件

-dbtype 数据库的类型(核酸或蛋白质)

-input_type  输入的文件格式

-out 产生数据库的文件前缀

4. blast gene to genome

tblastn -db SerRivdb -query C_lectin.fa -out blastout.txt

获得更精确易读的结果

tblastn -db SerRivdb -query C_lectin.fa -outfmt '6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore qcovs salltitles' -num_threads 16 -out blastout2 .txt

挑选结果

more blastout2.txt | awk '$3>50'

确认结果,将比对筛选得到的序列再回比到NR数据库,确认比对的正确性。

上一篇下一篇

猜你喜欢

热点阅读