Data scienceIMP researchScience相关 杂

Cytoscape Network Analyzer

2021-01-27  本文已影响0人  lilylotus4499

转载自Cytoscape NetworkAnalyzer Online Help

https://med.bioinf.mpi-inf.mpg.de/netanalyzer/help/2.7/index.html#complex

将节点(nodes)/边缘(edge)参数存储在节点/边缘属性中

    对于网络中的每个节点,Network Analyzer都会计算其度(定向网络的入度和出度in- and out-degrees),聚类系数clustering coefficient,自环数self-loops以及各种其他参数。 Network Analyzer还为网络中的每个边缘计算边缘中间度。 如果启用了各个选项,则Network Analyzer会将计算出的值存储为相应节点和边的属性。 这使用户可以应用不同的可视化效果,或者根据计算出的属性的值过滤节点或边。 有关计算的节点和边属性的完整列表,请参见“属性”部分section Attributes。

将可扩展界面用于显示分析结果的对话框

    如果启用此选项,分析结果将显示在一个窗口中,在该窗口中,所有图表都在可展开的框中彼此下方放置。 如果禁用此选项,分析结果将显示在一个窗口中,该窗口包含用于简单参数组和每个复杂参数的选项卡。 希望同时查看一个网络的两个或更多个复杂参数的用户,应启用此选项。

网络解释

图1(a)Directed network

图1(b)Undirected network

    NetworkAnalyzer可以对有向网络Directed network(仅包含有向边缘)以及无向网络Undirected network(仅包含无向边缘)执行拓扑分析。有向网络和无向网络的示例分别在图(a)和图(b)中给出。在Cytoscape中,即使网络在生物学环境中是无向的,网络也可能仅包含有向边缘。    此外,如果通过合并来自不同来源的数据来编译网络,则一个网络可能包含有向边和无向边。    在上述情况下,NetworkAnalyzer需要用户输入如何解释边缘。图2描绘了Cytoscape中小型网络的两个示例及其解释。

图2(a)Network with directed paired edges and its three possible interpretations.

图2(b)Network containing both directed and undirected edges and its interpretation as undirected.

    图2 (a) 具有定向成对边缘的网络及其三种可能的解释。(b)既包含有向边又包含无向边的网络,其解释为无向的。在(a)中,网络仅包含有向边。在此,NetworkAnalyzer提供了网络中边缘方向的三种可能的解释。用户必须选择一种解释以进一步处理网络。在(b)中,网络包含无向和有向边。请注意,无方向的边缘不能明确转换为有方向的边缘。因此,具有混合边缘的网络将被视为无向网络。

简单网络参数Simple Network Parameters

连接组件数(Number of connected components)

    在无向网络中,如果两个节点之间存在边沿路径,则它们是连接的。在网络内,成对连接的所有节点均形成连接的组件。已连接组件的数量表示网络的连通性——所连接组件的数量越少,表明连通性越强。

与最短路径有关的参数

    路径(path)的长度是形成路径的边数。可能有多个路径连接两个给定节点。两个节点n和m之间的最短路径长度(也称为距离)用L(n,m)表示。网络直径(network diameter)是两个节点之间的最大距离。如果网络断开连接,则其直径为其连接的组件的所有直径中的最大值。直径也可以描述为最大节点偏心率(maximum node eccentricity)。另一方面,网络半径(network radius)是网络中节点的非零偏心率中的最小值。平均最短路径长度(average shortest path length,也称为特征路径长度characteristic path length)给出了两个连接节点之间的预期距离。

与邻域(neighborhood)相关的参数

    给定节点n的邻域是其邻居(neighbors)的集合。 n的连通性用kn表示,是其邻域的大小。邻居的平均数量(average number of neighbors)表示网络中节点的平均连接性。此参数的归一化版本是网络密度(network density)。密度是一个介于0到1之间的值。它显示了网络边缘填充的密度(忽略自环self-loops和重复边缘duplicated edges)。不包含边且仅隔离节点的网络的密度为0。相反,团(clique)的密度为1。

    隔离节点(isolated nodes)的数量可以提供有关网络密度如何分布的见解。另一个相关参数是网络集中化(network centralization)。拓扑类似于星形的网络的集中度接近1,而分散网络的特征是集中度接近0。网络异质性(network heterogeneity)反映了网络包含集线器节点(hub nodes)的趋势。另外,多边缘节点对(multi-edge node)的数量表示相邻节点被一个以上的边缘连接的频率。

聚类系数(Clustering coefficient)

    在无向网络中,节点n的聚类系数Cn定义为Cn = 2en / [kn(kn-1)],其中kn是n的邻居数,en是n的所有邻居之间的连接对数。在定向网络中,定义略有不同:Cn = en / [kn(kn-1)]。在这两种情况下,聚类系数均为N / M,其中N是n个邻居之间的边的数量,M是n个邻居之间可能存在的最大边的数量。节点的聚类系数始终为0到1之间的数字。网络聚类系数是网络中所有节点的聚类系数的平均值。在此,假设邻居少于两个的节点的聚类系数为0。     在这两种情况下,聚类系数均为N / M,其中N是n个邻居之间的边的数量,M是n个邻居之间可能存在的最大边的数量。节点的聚类系数始终为0到1之间的数字。    网络聚类系数( network clustering coefficient)是网络中所有节点的聚类系数的平均值。在此,假设邻居少于两个的节点的聚类系数为0。 

复杂的网络参数(Complex Network Parameters)

度分布

    在无向网络中,节点n的节点度是链接到n的边数。节点的自环像两个边缘一样被计算为节点度。 节点度数分布(node degree distribution)给出k = 0,1,…时度为k的节点数。     在有向网络中,节点n的入度(in-degree)是指向一个节点的边的数量,出度(out-degree)是从该节点出发指向其他节点的边的数量。 类似于无向网络,存在度内分布( in-degree distribution )和度外分布(out-degree distribution)。

邻域连通性(Neighborhood connectivity)

    节点的连通性(connectivity)是指该点的邻居数。 节点n的邻域连通性(neighborhood connectivity)定义为n的所有邻居的平均连通性。 邻域连通性分布(neighborhood connectivity distribution )给出了k = 0,1,…时具有k个邻居的所有节点n的邻域连通性的平均值。 图3显示了图1(b)中所示网络的邻域连通性分布。    NetworkAnalyzer计算定向网络的类似参数。 类似于入度和出度,定向网络中的每个节点n都具有入度和出度连通性。 因此,在定向网络中,节点具有以下类型的邻居连接:1,仅在-n个邻居的平均外连接性;2,仅出-n的所有邻居的平均不连通性;3,输入和输出-n的所有邻居的平均连接性(忽略边的方向)。基于以上给出的三个定义,存在三种邻域连通性分布-“仅输入”,“仅输出”和“输入和输出”。 

图3 图1(b)中所示的网络的邻居连接分布

    如果邻域连接分布是k的递减函数,则网络中低连接节点和高连接节点之间的边缘占优势 。

最短路径(Short path)

    两个节点n和m之间的最短路径(shortest path)的长度为L(n,m)。最短路径长度分布(shortest path length distribution)给出了节点对(n,m)的数量,其中k(1,2,…)为L(n,m)= k。网络直径(network diameter)是两个节点之间最短路径的最大长度。如果网络断开连接,则其直径为其连接的组件的所有直径的最大值。网络直径和最短路径长度分布可能表明所分析网络的小世界特性。

聚类系数(Clustering coefficients)

    在无向网络中,节点n的聚类系数(clustering coefficient)Cn定义为Cn = 2en /(kn(kn-1)),其中kn是n的邻居数,en是n的所有邻居之间的连接对数。在定向网络中,定义略有不同:Cn = en /(kn(kn-1))。    在这两种情况下,聚类系数均为N / M,其中N是n个邻居之间的边的数量,M是n个邻居之间可能存在的最大边的数量。节点的聚类系数始终为0到1之间的数字。    平均聚类系数分布(average clustering coefficient distribution)给出了k = 2,…,k个邻居的所有节点n的聚类系数的平均值。 NetworkAnalyzer还计算网络聚类系数(network clustering coefficient),该系数是网络中所有节点的聚类系数的平均值。    节点的聚类系数是通过该节点的三角形(triangles, 3-loops)的数量,相对于可以通过该节点的3-loops的最大数量。

图4 Example network with four nodes and four edges.

    例如,在图4中,有一个三角形穿过节点b(三角形bcd)。 可以通过b的三角形的最大数量为3(在这种情况下,(a,c)和(a,d)将进行额外的连接 )。 这样得出的聚类系数为Cb = 1/3。

共同邻居(Shared neighbors)

    P(n,m)是节点n和m之间共享的伙伴数,也就是说,节点是n和m的邻居。 对于k = 1,…,共享邻居分布(shared neighbors distribution)给出节点对(n,m)的数量,其中P(n,m)= k。如果像图5所示的模板在网络中被过度代表,则可以从共享邻居分布中推断出这一点。

图5 Motif of two nodes sharing exactly four neighbors.

拓扑系数(Topological coefficients)

    具有kn个邻居的节点n的拓扑系数Tn计算如下:Tn =avg(J(n,m))/ kn。在此,将J(n,m)定义为与n共享至少一个邻居的所有节点m。值J(n,m)是节点n和m之间共享的邻居数,如果n和m之间存在直接链接,则加1。例如,在图6中,J(b,c)= J(b,d)= J(b,e)=2。因此,Tb = 2/3。拓扑系数(topological coefficient)是一个节点与其他节点共享邻居的程度的相对度量。拓扑系数图可用于估计网络中节点具有共享邻居的趋势。NetworkAnalyzer计算网络中具有多个邻居的所有节点的拓扑系数。具有一个或没有邻居的节点的拓扑系数分配为0。

图6  Example network with five nodes and six edges.

应力中心性(Stress centrality)

    节点n的应力中心性(stress centrality)是通过n的最短路径的数量。如果一个节点被大量的最短路径穿过,则其应力较高。仅对于没有多个边缘的网络定义此参数。    应力中心性分布给出了不同s值下应力为s的节点数。应力值被分组为大小为10的指数增长的仓。用于此分布的仓为{0};此仓为{0}。[1,10);[10,100);...

中介中心性(Betweenness centrality)

    计算网络中任意两个节点的所有最短路径,如果这些最短路径中有很多条都经过了某个节点,那么就认为这个节点的中介中心性高。    计算经过一个点的最短路径的数量。经过一个点的最短路径的数量越多,就说明它的中介中心性越高。

    节点n的中介中心性Cb(n)计算如下:Cb(n)= ∑s≠n≠t(σst(n)/σst),其中s和t是网络中不同于n的节点,σst表示从s到t的最短路径的数量,σst(n)是n所在的从s到t的最短路径的数量。中间性中心度仅针对不包含多个边的网络计算。 通过除以除n以外的节点对的数目来对每个节点n的中间值进行归一化:(N-1)(N-2)/ 2,其中N是n所属于的连接组件中节点的总数。 因此,每个节点的中介性中心是一个介于0和1之间的数字。    节点之间的中心性反映了该节点对网络中其他节点的交互施加的控制量。此措施有利于加入社区(密集子网)的节点,而不是位于社区内部的节点。NetworkAnlayzer使用Brandes的快速算法来计算节点之间的中心性。该算法的复杂度为O(NM),N为节点数,M为网络中的边缘数。 

紧密中心性(Closeness centrality)

    如果节点到图中其它节点的最短距离都很小,那么我们认为该节点的紧密中心性高。    节点n的紧密中心性Cc(n)定义为平均最短路径长度的倒数,其计算公式如下:Cc(n)= 1 / avg(L(n,m)),其中L(n,m)是两个节点n和m之间的最短路径的长度。 每个节点的紧密中心性为0到1之间的数字。NetworkAnalyzer计算所有节点的接近度中心度并将其相对于邻居数进行绘制。 孤立节点的紧密中心性等于0。紧密中心性是衡量信息从网络中的给定节点到其他可达节点的传播速度的方法。

节点属性Node Attributes

在迭代网络的连接组件时,NetworkAnalyzer为每个节点n计算以下拓扑度量:

平均最短路径长度(AverageShortestPathLength)Average length of a shortest path between n and any other node. If n is an isolated node, the value of this attribute is zero.

中介中心性BetweennessCentrality Centrality of n as explained in the section Betweenness centrality.

紧密中心性ClosenessCentrality of n as described in the section Closeness centrality.

聚类系数ClusteringCoefficient This numerical attribute stores the clustering coefficient of n, as defined in [2]. Nodes with less than 2 neighbors have a clustering coefficient of zero.

度Degree The degree of n as explained in the section Degree Distributions.

偏心率Eccentricity The maximum non-infinite length of a shortest path between n and another node in the network. If n is an isolated node, the value of this attribute is zero.

IsSingleNode This boolean attribute indicates if n is an isolated node, that is, if n has no neighbors.

NeighborhoodConnectivity The neighborhood connectivity of n as explained in the section Neighborhood Connectivity.

NumberOfDirectedEdges This attribute counts the number of directed edges that are connected to n.

NumberOfUndirectedEdges This attribute counts the number of undirected edges that are connected to n.

PartnerOfMultiEdgedNodePairs This attribute indicates if n is a partner of node pairs with multiple edges.

Radiality This attribute is a node centrality index computed by subtracting the average shortest path length of a node n from the diameter of the connected component plus 1. The radiality of each node is divided by the diameter of the connected component. Thus it is a number between 0 and 1.

SelfLoops This attribute counts the number of self-loops at n.

Stress This attribute counts the number of shortest paths passing through a node.

拓扑系数 TopologicalCoefficient This numerical attribute stores the topological coefficient of n, as defined in. Nodes with less than 2 neighbors have a topological coefficient of zero.

上一篇下一篇

猜你喜欢

热点阅读