Blast软件使用笔记

2019-10-18 本文已影响0人生信筆記

时间：2019年10月18日 —21:57（start）
昨天到今天一直在考虑使用时Blast软件，此软件在前也是使用过，但是现在好好的考虑了一下，感觉前面使用中，筛选步骤感觉不是很对。
因此，今天也在这里向大家支招，请大家指正一下。

-------------------------------------------------------------------

blastp：蛋白序列与蛋白库作比对，直接比对蛋白序列的同源性。
blastx：核酸序列与蛋白库作比对，将核酸序列先翻译成蛋白序列，再将其与蛋白库作比对。
blastn：核酸序列与核酸库的比对，直接比对核酸序列的同源性。
tblastn：蛋白序列对核算库的比对，现将核酸库翻译成蛋白库，再将蛋白序列与翻译后的蛋白库进行比对。
tblastx：核酸与核酸数据库在蛋白质水平比较

image.png

1 使用方法

1.1 建库

## 蛋白质数据库
makeblastdb -in SwissPort.fa -input_type fasta -dbtype prot -out SiwssPort_blastdb  
## 核算数据库
makeblastdb -in SwissPort.fa -input_type fasta -dbtype nucl -out SiwssPort_blastdb

2 比对

blastx -query selected.fa  -db  ~/DATA/M.truncatula/Analysis_data/UniprotKB/SwissProt_blastdb -evalue  1e-5  -outfmt 6 -out blastx.csv
#blast中不同软件的比对参数不同，请将其分开

3 Blast结果文件解读

MSTRG.32.1      sp|Q2EF88|YSL3_ARATH    72.110  545     149     2       590     2221    124     666     0.0     769
MSTRG.32.1      sp|Q2EF88|YSL3_ARATH    62.857  105     39      0       243     557     21      125     5.75e-34        142
MSTRG.32.1      sp|Q6R3K9|YSL2_ARATH    67.824  547     172     4       590     2221    113     658     0.0     730
MSTRG.32.1      sp|Q6R3K9|YSL2_ARATH    70.526  95      28      0       273     557     20      114     3.01e-33        140
MSTRG.32.1      sp|Q7XUJ2|YSL9_ORYSJ    66.239  545     177     3       590     2221    140     678     0.0     715
MSTRG.32.1      sp|Q7XUJ2|YSL9_ORYSJ    54.717  106     47      1       243     557     36      141     5.53e-28        124
MSTRG.32.1      sp|Q6R3L0|YSL1_ARATH    62.659  549     199     4       578     2221    125     668     0.0     689
MSTRG.32.1      sp|Q6R3L0|YSL1_ARATH    65.263  95      33      0       273     557     36      130     4.02e-30        130
MSTRG.32.1      sp|Q6H3Z6|YSL2_ORYSJ    64.179  536     187     3       617     2221    137     668     0.0     673
MSTRG.32.1      sp|Q6H3Z6|YSL2_ORYSJ    49.091  110     39      4       264     542     15      124     4.55e-18        92.8

解读文件从左向右
[1] Query id：已知的序列ID
[2] Subject id:比对到数据库中的序列ID
[3] % identity :相似度
[4] alignment length：比对长度
[5] mismatches ：错配数目
[6] gap openings：gap的数目
[7] q. Start：已知的序列比对起始位置
[8] q. End：已知的序列比对终止位置
[9] s. Start：数据库中序列比对起始位置
[10] s. End；数据库中序列比对终止位置
[11] E value；比对的E值
[12] score；比对的得分

---------------------------------------------------------------------

以上是blast的结果解读，我现在跑的是blastx，但使用-outfmt 6输出的结果格式应该是一样的。
输出的结果是说明与其蛋白数据库有一定的相似性的，但是输出的结果你是是否全部都使用或不适用需要你自行进行筛选，我筛选的是非编码RNA，因此与蛋白数据库比对上的都可以说明该转录本与该蛋白数据库有相似性。

我最开始是将所有比对上的转录本全部删除，但是今天我又仔细的想一下，我全部删除是不对的，也许是不对的，因此，希望在这块比较熟悉的请帮忙指教一下！！在此感谢！！

Nr：http://mirrors.vbi.vt.edu/mirrors/ftp.ncbi.nih.gov/blast/db/FASTA/nr.gz

Pfam：ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam32.0/Pfam-A.fasta.gz

Uniprot:ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz