制作小麦的GO注释文件

2022-12-04  本文已影响0人  无言_俗人

参考资料:

由于在GO数据库中并没有小麦的GO注释信息所以需要自己整理获得小麦中gene与GO对应关系。当然也可以利用TGT数据库网站的GOEnrichment项目进行GO富集分析。
自制GO注释文件过程具体如下:

1.下载小麦1.0版本基因注释信息表

#此处选的是高可信基因版本
wget https://urgi.versailles.inra.fr/download/iwgsc/IWGSC_RefSeq_Annotations/v1.0/iwgsc_refseqv1.0_FunctionalAnnotation_v1.zip
#解压
unzip iwgsc_refseqv1.0_FunctionalAnnotation_v1.zip

2. 编写perl脚本实现GO注释信息提取

Taes_GO_file_from_1.0HCTAB.pl内容如下:

#!/usr/bin/perl -w
use strict;
 "usage: perl $0 TAB.file  |sort |uniq > GO_file.txt\n" unless @ARGV==1;
open TAB,"$ARGV[0]" or die $!;
print "gene\tGO\tprocess\tdesp\n";
while(<TAB>){
chomp;
my @line=split/\t/;
#将那些没有注释到任何GO通路的基因过滤掉
next if $line[7] !~/GO:/;
#仅使用基因id,而不用转录本id
my $gene=(split/\./,$line[0])[0];
#将那些有多个GO注释过程的基因分割成多行,每行仅含一个过程
$line[7]=~s/;/\n$gene\t/g;
$line[7]=~s/\sMF:\s/\tMF\t/g;
$line[7]=~s/\sCC:\s/\tCC\t/g;
$line[7]=~s/\sBP:\s/\tBP\t/g;
print $gene,"\t",$line[7],"\n"; 
}
close TAB;

运行脚本获得GO_file.txt

#此处需要去除重复的行
perl Taes_GO_file_from_1.0HCTAB.pl iwgsc_refseqv1.0_FunctionalAnnotation_v1__HCgenes_v1.0.TAB |sort |uniq > GO_file.txt

GO_file.txt结果展示如下:

gene    GO      process desp
TraesCS1A01G001800      GO:0003735      MF      structural constituent of ribosome
TraesCS1A01G001800      GO:0005622      CC      intracellular
TraesCS1A01G001800      GO:0005840      CC      ribosome
TraesCS1A01G001800      GO:0006412      BP      translation
TraesCS1A01G002000      GO:0005515      MF      protein binding
TraesCS1A01G002000      GO:0008270      MF      zinc ion binding
TraesCS1A01G002400      GO:0005506      MF      iron ion binding
上一篇下一篇

猜你喜欢

热点阅读