生物信息学与算法数据可视化生物信息学

Gephi网络图极简教程

2018-05-30  本文已影响583人  周运来就是我
HelloWorld
网络分析背景知识

图结构:是研究数据元素之间的多对多的关系。在这种结构中,任意两个元素之间可能存在关系。即结点之间的关系可以是任意的,图中任意元素之间都可能相关。

基于图论(Graph theory)的网络科学认为,任何非连续事物之间的关系都可以用网络来表示,通过将互联网内的电脑、社会关系中的个人、生物的基因等不同属性的实体抽象为节点(Node),并用连接(Link)来展示实体之间的关系,通过量化以节点和连接为组件的网络结构指数(Index),从而能够在统一的框架下寻找复杂系统的共性。

网络关系图(network analysis)是一款比较火的分析,最近频繁出现在微生物生态研究的各大论文里。其实单纯看网络关系的话,只是一种数据分析的手段,很早就应用在其他领域。然而到了2006年,Proulx等科学家在TRENDS ECOL EVOL(IF=16.74)发文,提出网络关系也可以作为一种分析手段应用在生态领域(Proulx et al. 2006)。到了2012年,Barberán等科学家在ISME发文,通过构建土壤中微生物的网络关系来研究其共生模式(Barberán et al. 2012)。

目前生态学领域大家用到的网络图多为基于群落数据相关性构建的Co-occurrence网络图。此类网络可以采用R中igraph包、Python 中的Networkx构建并实现出图。当然,除此之外,还有一些非命令行的软件,例如cytoscape,gephi,pajek,graphviz(dot),Ucinet等。

其中 Gephi 是开源免费跨平台基于JVM的复杂网络分析软件, 其主要用于各种网络和复杂系统,因它简单、易学、出图美观而备受青睐。当你打开网络图的大门,第一个映入眼帘的可能就是它,适合入门,被誉为Networker的初恋[扯]。

Gephi 实现网络图绘制
边文件 节点文件

当然你要打开Gephi。【文件】→【打开】选择文件,在点击下一步的同时注意一下每个参数的含义是不是你要表达的意思。分别导入节点文件与边文件。

导入数据

输入第二个文件时 注意:


导入数据

Gephi提供多种布局方式,一般圆形网络图选择”Fruchterman Reingold”布局格式。点击【运行】,等布局稳定后,点击 【停止】,生成圆形布局的网络图。

布局调整 拓扑参数计算 节点设置 边设置

点击预览,修改如下图红色方框选项,在 预览设置 面板对网络图进行输出前的最后修饰。

另外的选项可根据需要自行调整。在之前的设置中也可以通过预览来查看效果,一步一步调整。

效果图

Gephi 支持多种格式的输出:SVG、PNG、PDF、gexf图文件等。


导出格式
  1. 节点:相同颜色是同一个门;节点大小表示连接度;
  2. 边:红色正相关,蓝色负相关(spearman),粗细表示相关系数绝对值大小;

导出的矢量图可用AI等图形编辑软件进一步修改,图形文件也可以用脚本来处理,图个性化地添加图例等。图文件也是一种标签语言。

让大家见识一下,开头HelloWorld的代码:

<?xml version="1.0" encoding="UTF-8"?>
<gexf xmlns="http://www.gexf.net/1.3" version="1.3" xmlns:viz="http://www.gexf.net/1.3/viz" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.gexf.net/1.3 http://www.gexf.net/1.3/gexf.xsd">
  <meta lastmodifieddate="2018-05-30">
    <creator>Gephi 0.9</creator>
    <description></description>
  </meta>
  <graph defaultedgetype="directed" mode="static">
    <nodes>
      <node id="0" label="Hello">
        <viz:size value="10.0"></viz:size>
        <viz:position x="-157.09903" y="-64.66471"></viz:position>
        <viz:color r="251" g="9" b="9"></viz:color>
      </node>
      <node id="1" label="World">
        <viz:size value="10.0"></viz:size>
        <viz:position x="157.09904" y="64.66471"></viz:position>
        <viz:color r="10" g="194" b="245"></viz:color>
      </node>
    </nodes>
    <edges>
      <edge id="0" source="0" target="1">
        <viz:color r="0" g="109" b="44"></viz:color>
      </edge>
    </edges>
  </graph>
</gexf>

GEXF (Graph Exchange XML Format) 是一种描述复杂网络的语言,包括复杂网络的结构,数据等等。最初是由Gephi项目2007年确立。生成gexf需要用到布局算法, 常见的有 Force-directed_graph_drawing 力导向算法, 算法的核心思想是节点之间产生斥力,边给两个节点提供拉力,通过多次迭代最后维持一个稳定状态,手动实现布局算法还是有一些复杂度的,好在gephi-tookit组件提供了API来处理数据, 首先在maven项目中加入gephi的仓库和依赖。

一个花的例子:How Programmers Relate based on Google Searches

How Programmers Relate
难点在哪?
  1. 现有的数据到Gephi需要的数据格式。
  2. 布局与配色
  3. Gephi 没有生成图例

参考:

gephi 中文教程|视频
gephi 官网
Co-occurrence网络图在R中的实现
从《你的名字》学做“网络关系图”——Gephi篇
R||Network
Python · Networkx
GEXF File Format
如何将枯燥的大数据呈现为可视化的图和动画?
学习新技术时你应当掌握的『最少必要知识』
Revelle, W. & Revelle, M. W. Package ‘psych’. The Comprehensive R Archive Network (2015).
Bastian, M., Heymann, S. & Jacomy, M. Gephi: an open source software for exploring andmanipulating networks. Icwsm 8, 361-362 (2009).
Newman, M. E. Modularity and community structure in networks. Proceedings of the national academy of sciences 103, 8577-8582 (2006).
Barberan, A., Bates, S. T., Casamayor, E. O. & Fierer, N. Using network analysis to explore cooccurrence patterns in soil microbial communities. The ISME journal 6, 343-351,doi:10.1038/ismej.2011.119 (2012)

¥70.40(8.92折)

您看本文值多少钱↓↓↓↓↓↓↓↓↓↓↓↓↓↓

上一篇下一篇

猜你喜欢

热点阅读