基于blast进行GO功能注释
2020-07-04 本文已影响0人
斩毛毛
目前GO注释主要分为两种方法,其一,序列相似性即blast,其二,结构域相似性比对(InterProsScan),该方法在前面也提及过,本文就blast进行简要概述
所需文件
- query 蛋白序列
- swiss-prot 蛋白数据库
- idmapping.tb.gz, 即GO和swiss-prot的对应关系,也包括GO与其他数据库的对应关系
简单操作
1. blast比对
对swiss-prot建库后,进行比对
blastp -outfmt 6 -query query_sequences_AA.fasta -db uniprot_swissprot.fasta -out query_vs_swissprot.txt
得到如下结果
YY_000250.1 Q8RXX9 38.728 173 75 5 24 178 14 173 1.29e-23 101 E3 ubiquitin-protein ligase ATL
YY_000260.1 Q9SK92 36.364 132 70 6 12 140 40 160 9.82e-12 69.3 E3 ubiquitin-protein ligase ATL
YY_000270.1 Q9SLC3 37.302 126 67 2 5 118 43 168 1.51e-23 98.6 E3 ubiquitin-protein ligase ATL
YY_000270.1 Q9SLC3 40.196 102 46 3 134 234 68 155 3.04e-14 73.2 E3 ubiquitin-protein ligase ATL
YY_000280.1 Q8W571 38.060 134 75 2 2 134 52 178 4.49e-23 95.5 RING-H2 finger protein ATL32 OS
其中第二列即为swiss-prot数据库中的ID
2. 下载GO对应关系
从 ftp://ftp.pir.georgetown.edu/databases/idmapping 下载 idmapping.tb.gz,该文件较大,也可选择Filezilla 进行下载,或
wget ftp://ftp.pir.georgetown.edu/databases/idmapping/idmapping.tb.gz
该文件均为一些对应关系,具体如下:
Q6GZX4 001R_FRG3G 2947773 YP_031579.1 81941549; 49237298 PF04947 GO:0046782 UniRef100_Q6GZX4 UniRef90_Q6GZX4 UniRef50_Q6GZX4 UPI00003B0FD4 654924 15165820 AY548484 AAT09660.1
Q6GZX3 002L_FRG3G 2947774 YP_031580.1 49237299; 81941548 PF03003 GO:0033644; GO:0016021 UniRef100_Q6GZX3 UniRef90_Q6GZX3 UniRef50_Q6GZX3 UPI00003B0FD5 654924 15165820 AY548484 AAT09661.1
Q197F8 002R_IIV3 4156251 YP_654574.1 109287880; 123808694; 106073503 UniRef100_Q197F8 UniRef90_Q197F8 UniRef50_Q197F8 UPI0000D83464 345201 16912294 DQ643392 ABF82032.1
-
(1) UniProtKB accession
-
(2) UniProtKB ID
-
(3) EntrezGene
-
(4) RefSeq
-
(5) NCBI GI number
-
(6) PDB
-
(7) Pfam
-
(8) GO
-
(9) PIRSF
-
(10) IPI
-
(11) UniRef100
-
(12) UniRef90
-
(13) UniRef50
-
(14) UniParc
-
(15) PIR-PSD accession
-
(16) NCBI taxonomy
-
(17) MIM
-
(18) UniGene
-
(19) Ensembl
-
(20) PubMed ID
-
(21) EMBL/GenBank/DDBJ
-
(22) EMBL protein_id
3. 对应关系转换
根据blast结果,根据蛋白数据库中的ID将其对应的GO 注释到对应的基因上
python UniProt2GO_annotate.py idmapping.tb.gz blastoff output file
结果如下
c93619_g2_i1 GO:0005506,GO:0016705,GO:0016021,GO:0004497,GO:0020037
c93619_g2_i3 GO:0009733,GO:0020037,GO:0044550,GO:0016021,GO:0016020,GO:0016711,GO:0009813,GO:0005789,GO:0005506
c70056_g1_i1 GO:0005737,GO:0019722,GO:0071889,GO:0005829,GO:0001077,GO:0006357,GO:0097720,GO:0000978,GO:0046872,GO:0005634,GO:0006874
c93748_g1_i1 GO:0006729,GO:0008124
c107639_g1_i1 GO:0009737,GO:0009738,GO:0005623,GO:0006970,GO:0009651,GO:0045454,GO:0009789
c106424_g1_i1 GO:0043565,GO:0009555,GO:0003700,GO:0005634,GO:0009793,GO:0006351
c66585_g1_i1 GO:0005737,GO:0003746,GO:0003924,GO:0005525
c110618_g1_i8 GO:0015297,GO:0016021,GO:0015238
其中脚本UniProt2GO_annotate.py 下载
链接:http://pan.baidu.com/s/1kVjzJYv 密码:vigu