基因表达模式识别专题生信基因家族分析

statistics---家族分析中的统计作图：热图、共表达调控

2021-08-21 本文已影响0人许东

首先要介绍的，当然是热图。虽然只是两个字却有着非常灵活的使用：可以展示表达量，可以展示某个生物过程中的基因富集情况，总体而言，但凡涉及数据而且是不同处理情况下的数据，就几乎都可以考虑是不是用热图表示一下。在SPDE中该图的绘制被放在了统计模块中。界面如下所示：

热图模块

在SPDE的所有作图模块中，由红色字体标注的是用户必须填入的东西而标记有“format”字样的则是该模块的数据格式说明。其中，标记着color字样的按键其功能是从数据库中为用户进行自动配色，颜色库里都是一些在SCI上上常见的配色，这样可以解决用户在配色时的选择困难综合症。热图部分其基本的数据格式如下所示：

热图数据格式

在使用的时候只需要将符合格式要求的文件拖入进来，然后点击选择颜色按钮“choose color”，之后点击绘制按钮“draw”，即可生成热图。如下所示：

热图

为尽可能简化操作过程，SPDE中字体已经统一设置成“Times New Roman”，而当用户将结果保存成图片格式的时候则分辨率默认即为600 bpi，这个分辨率相信用户在投任何期刊时都是够用。当然，关于热图的其他方面也是可以调节，例如：

参数分布

是否聚类：

聚类

是否展示数据：

展示数据

是否为每个小颜色格添加线的颜色等等

添加线的颜色

还有其他一些参数的调节都可以通过点点点的方式实现而避开了使用代码等方式造成的不便。

接下来是共表达调控网络图的绘制，如下：

共表达调控网络

如红色字体所示，标注的是调控网络中元素的类型。一般这种图可用于表示在某个生物学过程中各个基因的表达情况，当然该图也可以用来展示哪些变量是受另外一些变量控制的或者与另外哪些变量是有关系的。软件界面如下：

共表达调控网络界面

如上所述，红色部分代表必填区，而“the required format”则是要求的数据类型：

要求的数据类型

一列是hub，一列是node，之后圆圈的大小表示的是在这个生物学过程中某基因出现的频次，如上图所示，ARF1与其他三个基因都有关系，则代表ARF1的圆最大。

画图模式

此外，用户还可以根据自己的需要调节画图的模式，例如当选择“circular”，即圆形时，画图效果如下：

圆形模式效果

而当处在“None”这个模式下时，用户每点击一次“draw”，它便会随机安排一次各个元素的排列组合方式。同样，"choose color"则会为用户自动进行配色且每当单击一次它会更新到新的颜色以满足大家对颜色的要求。

接下来是韦恩图的绘制：

SPDE韦恩图

界面如下图所示：

韦恩图界面

如图所示，在SPDE中最多可以做六重的韦恩图，因为我发现当到六重的时候，这个图已经是过于复杂了，如下所示：

六重韦恩图

可以想想如果再多，这个图就更加难以识别了，因此，建议同学们做韦恩图，如果确实需要表示很多，不妨把一个大图拆开以一组小图的方式表示。其所识别的数据格式，以两组为例：

输入文件格式

文件内容是只包含你想要统计的元素就好，每个元素一行而统计的工作SPDE会替你完成。

最后是GO统计图：

GO统计图

输入GO号可以实现对其功能的查找

REVIGO

其输出文件可以作为SPDE的输入文件进行作图

REVIGO的输出文件

需要注意的一点是，其输出文件中有些无法计算的东西，它用“null”表示：

null的部分

这些信息没有必要进入图中，因此，需要对该输入文件进行一次格式化以去除这些不必要的信息：

格式化REVIGO文件

完成格式化后就可到相应的作图模块进行作图了

GO的富集分析

需要说明的一点是REVIGO对输入文件格式有一个要求，而通常转录组中含有GO的部分是需要整理后才能满足其要求的，所以开发了对转录组结果中GO部分的处理功能：

对转录组中数据的处理

其要求的输入文件格式为：

格式1

或者

格式2

输入文件准备好了之后，可以选择一个模式进行格式化：

格式化GO文件的两种格式

其中①的输出文件是REVIGO能够识别的，②的输入文件是上图中的格式2，输出文件是可以用于进行一定的统计计算的。

上一篇下一篇

猜你喜欢

热点阅读