基因家族分析(5)绘制基因结构图
本节介绍一款在线绘制基因结构的工具Gene Structure Dispaly Server(GSDS),简单好用功能强大。将基因家族成员 gff3 文件单独提取出来,运用它能够绘制清晰的基因结构图,展示外显子、内含子及UTR的位置。还可以联合其他数据绘制进化树-基因结构图,展现基因结构与系统进化关系。
首先提取基因家族的gff3文件
#这里用到一个perl脚本
perl ./gff_filter.pl 物种的gff3文件 基因家族id 生成的基因家族gff文件
# 注意检查UTR是否正常提取出, 将5'和3'utr 替换成UTR字段
sed 's/\t\S\+UTR\t/\tUTR\t/i' Ft.SPL.gff3 |awk '$3!="gene"' > name.UTR.gff3
将提取好的gff3文件,上传到GSDS网站,绘制基因结构图。
网站地址:Gene Structure Display Server 2.0 (gao-lab.org)
网站的首页

绘图的输入文件有三种类型的数据可选:
BED :大家可以在基因组GFF文件筛选基因的这些信息,第一列是基因ID,第二列是起始位置,第三列是终止位置,第四列是基因在这个位置是外显子还是UTR,第四列是注释信息,第四列可以不要
GTF/GFF3:基因注释文件(包含基因的结构信息,具体信息可以自行百度,有详细解释),可以在数据库中下载基因组的GFF文件,筛选出你的基因注释信息
Sequence (FASTA):第一个框里存放基因的CDS序列,第二个框里存放基因的完整序列,可以在NCBI数据库下载,或者在基因组数据中搜索需要ID的序列

数据输入后点击右下角的Submit即可。
如果想保存这张图片,右下角有三种图片保存类型,选择你想要保存的图片格式。
如果颜色不好看,可以自定义这些位点的颜色,例如想修改代表CDS的形状的颜色,点击下方颜色的框,就会弹出一个选颜色的界面,在Solid Color界面选取颜色,点击OK就会又回到结果的界面,Shape后面可以选择形状,还可以选择大小,再点击Redraw,所有代表CDS的形状就会变成你选择的颜色。

下面给大家介绍两个延伸功能:
第一是能将进化树和基因结构结合在一起。
第二添加基因的其他结构信息例如motif或者domain。
导入基因家族的gff3数据,和进化树文件nwk格式(注意:进化树文件中的ID必须要与基因结构数据里的ID一致),点击Submit即可。


这里出现了id重叠,导出SVG格式后在AI里面删掉一个id即可。
如果你还想在图片里显示基因的其他信息例如motif或者是domain,点开Other Features,输入数据,第一列是ID,第二三列分别是这个位点的起始、结束,第三列是这个位点的名称,例如motif1或者domain的名称,点击Submit即可。(这一部分用的是网页自带的例子)
