转录组蛋白质RNA-seq分析

基于blast进行GO功能注释

2020-07-04  本文已影响0人  斩毛毛

目前GO注释主要分为两种方法,其一,序列相似性即blast,其二,结构域相似性比对(InterProsScan),该方法在前面也提及过,本文就blast进行简要概述

所需文件

简单操作

1. blast比对

对swiss-prot建库后,进行比对

blastp -outfmt 6 -query query_sequences_AA.fasta -db uniprot_swissprot.fasta -out query_vs_swissprot.txt

得到如下结果

YY_000250.1     Q8RXX9  38.728  173     75      5       24      178     14      173     1.29e-23        101     E3 ubiquitin-protein ligase ATL
YY_000260.1     Q9SK92  36.364  132     70      6       12      140     40      160     9.82e-12        69.3    E3 ubiquitin-protein ligase ATL
YY_000270.1     Q9SLC3  37.302  126     67      2       5       118     43      168     1.51e-23        98.6    E3 ubiquitin-protein ligase ATL
YY_000270.1     Q9SLC3  40.196  102     46      3       134     234     68      155     3.04e-14        73.2    E3 ubiquitin-protein ligase ATL
YY_000280.1     Q8W571  38.060  134     75      2       2       134     52      178     4.49e-23        95.5    RING-H2 finger protein ATL32 OS

其中第二列即为swiss-prot数据库中的ID

2. 下载GO对应关系

ftp://ftp.pir.georgetown.edu/databases/idmapping 下载 idmapping.tb.gz,该文件较大,也可选择Filezilla 进行下载,或

wget ftp://ftp.pir.georgetown.edu/databases/idmapping/idmapping.tb.gz

该文件均为一些对应关系,具体如下:

Q6GZX4  001R_FRG3G      2947773 YP_031579.1     81941549; 49237298              PF04947 GO:0046782                      UniRef100_Q6GZX4        UniRef90_Q6GZX4 UniRef50_Q6GZX4 UPI00003B0FD4           654924                          15165820        AY548484        AAT09660.1
Q6GZX3  002L_FRG3G      2947774 YP_031580.1     49237299; 81941548              PF03003 GO:0033644; GO:0016021                  UniRef100_Q6GZX3        UniRef90_Q6GZX3 UniRef50_Q6GZX3 UPI00003B0FD5           654924                          15165820        AY548484        AAT09661.1
Q197F8  002R_IIV3       4156251 YP_654574.1     109287880; 123808694; 106073503                                         UniRef100_Q197F8        UniRef90_Q197F8 UniRef50_Q197F8 UPI0000D83464           345201                          16912294        DQ643392        ABF82032.1

3. 对应关系转换

根据blast结果,根据蛋白数据库中的ID将其对应的GO 注释到对应的基因上

python UniProt2GO_annotate.py idmapping.tb.gz  blastoff output file

结果如下

c93619_g2_i1    GO:0005506,GO:0016705,GO:0016021,GO:0004497,GO:0020037
c93619_g2_i3    GO:0009733,GO:0020037,GO:0044550,GO:0016021,GO:0016020,GO:0016711,GO:0009813,GO:0005789,GO:0005506
c70056_g1_i1    GO:0005737,GO:0019722,GO:0071889,GO:0005829,GO:0001077,GO:0006357,GO:0097720,GO:0000978,GO:0046872,GO:0005634,GO:0006874
c93748_g1_i1    GO:0006729,GO:0008124
c107639_g1_i1   GO:0009737,GO:0009738,GO:0005623,GO:0006970,GO:0009651,GO:0045454,GO:0009789
c106424_g1_i1   GO:0043565,GO:0009555,GO:0003700,GO:0005634,GO:0009793,GO:0006351
c66585_g1_i1    GO:0005737,GO:0003746,GO:0003924,GO:0005525
c110618_g1_i8   GO:0015297,GO:0016021,GO:0015238

其中脚本UniProt2GO_annotate.py 下载
链接:http://pan.baidu.com/s/1kVjzJYv 密码:vigu

参考

欢迎扫码交流

上一篇下一篇

猜你喜欢

热点阅读