使用Cytoscape中的Enrichmen进行富集分析可视化t

2019-10-23 本文已影响0人 Mingyan_C

Enrichment Map是一个用于功能丰富可视化Cytoscape软件的插件,必须使用任何可用方法在EnrichmentMap之外生成富集结果。将基因集（例如通路和Gene Ontology terms）组织成网络（即“enrichment map”）可以是GSEA和g:Profiler的结果，当然也可以是DAVID,BINGO等其他的富集结果。通过这种方式，相互重叠的基因组聚集在一起，使解释更加容易，Nodes代表基因集，edge代表每个set间的重叠。 EnrichmentMap还可以在同一个map中比较两种不同的富集结果。

一.对g:Profiler的通路富集分析结果进行可视化

1. 打开Cytoscape软件，点击Apps，选择EnrichmentMap; 如果没在Cytoscape中安装EnrichmentMap,点击Apps，选择Managers，在搜索框中搜索EnrichmentMap, 点击install.然后再点击Apps选择EnrichmentMap.

2.在Create Enrichment Map中点击文件夹图标

3. 找到你的g:Profiler_result的文件夹之后点击打开，然后在右边的框中就会自动加载g:Profiler得到的结果文件。

加载了g:Profiler_result文件夹中的数据

4.可以在Name框中修改分析的名字，默认情况下是和加载到的Enrichments中的文件名字是一样的，可以进行修改。

5. Analysis Type选择Generic/gProfiler，如果你是对GSEA富集分析结果进行可视化，则选择GSEA，此外还有David和Bingo可以选择。

6. Enrichment中的文件是在3步中自动填充的数据文件，这个文件是g:Profiler分析之后下载得到的结果文件。

7.选项 Expressions:这里可以选择上传g：Profiler中分析的基因的表达矩阵，或者上传所有基因的表达数据集。如果表达数据集包含未用于g：Profiler搜索的其他基因，则它们的表达值仍将显示在富集图的热图中。

8.选项Rank:可以指定基因列表或表达数据的排列。

9. 选项Classes: 这是GSEA CLS文件，定义表达文件中每个样品的表型（即生物学条件），此文件仅适用于GSEA中的表型随机化。但是，将它提供给EnrichmentMap，则会按表现型在mentmap heat map viewer中标记表达文件的列。

10.选项Phenotypes: 如果表达数据中存在两种不同的表型，则更新表型标签，使“阳性”表示与阳性值相关的表型（本例中为间充质），“阴性”表示与阴性值相关的表型（如免疫反应性）。

调参数：

Number of Nodes：通常情况下，g：Profiler仅返回统计学上显着的结果（Q <0.05），因此可以在EnrichmentMap输入面板中将FDR q值截止参数设置为1，除非需要更严格的过滤。这里将FDR Q值设置为0.01。选项勾选Filter genes by expressions，用于排除在提供的表达文件中找不到的定义的基因集文件（即GMT文件）中的任何基因。如果不勾选Filter genes by expressions，则将保留表达文件中未找到的任何基因，并且将在expression heat map viewer中显示其所有关联的表达值，显示为灰色。

Number of Nodes参数

Number of Edges：将连接性滑块放在中间。如果网络由于太多的连接(边缘)而过于杂乱，那么将滑块向左移动，使网络更加稀疏。或者，如果网络过于稀疏(即，则将滑块向右移动，以获得连接更紧密的网络。

保持在中间，左边为稀疏右边为紧密

将滑块向左（或向右）移动将调整基础相似性统计阈值，以得到的网络更稀疏（或更）。滑块设置为预定义的默认值，但用户可以通过选择“Create Enrichment Map”面板底部的“Show advanced options”来微调相似性度量。预定义值在滑块上显示为刻度线，包括Jaccard > 0.35, Jaccard > 0.25, combined >0.375, overlap > 0.5, and overlap > 0.25.

。

Show advanced options

点击Show advanced options

combined

Jaccard

overlap

单击EnrichmentMap输入面板底部的“Build”按钮。将出现Building EnrichmentMap框并指示进度状态。成功创建map后，此框将消失。

右下角的build按钮

加载完数据之后点击build运行结果。

选择结束

正在运行的进度条

结束后就可以看到结果

放大图片可以看到每个红色的点（代表通路）中还标有通路的名字

放大结果图

EnrichmentMap结果解释：

以个Enrichment map必须阐述一些关于一个dataset的新发现的信息，因此必须要手动去创建一个具有发表质量的图。

可以使用“Control Panel”最左侧的选项卡选择“Network Panel”，选择Network Panel之后会出现一个主窗口，使用Cytoscape控件导航到它（缩放和平移），并通过读取基因集标签来探索通路。具有许多共同基因的途径通常代表相似的生物过程并且被组合在一起作为网络中的子网络或主题。单击节点（被单击的节点显示黄色）可以在网络视图下方的表格中显示出相应的基因。

单击节点之后的得到的Heat Map格

如果要查找感兴趣的基因或通路，请在右上角的搜索栏中输入其名称，包含这个基因的通路都会被高亮显示。如：搜索TP53基因

搜索TP53基因

要查找最富集的通路，可以查看网络视图下方的“Table Panel”，选择Node Table选项卡，然后通过单击列标题选择并排序名为'EM＃_fdr_qvalue'（对于g：Profiler富集结果可视化图）或'EM＃_NES'（对于GSEA富集结果可视化图）的列。要突出显示网络中这些通路的子集，需要选择与你感兴趣的通路对应的行，右键单击表中的任何你所选定的行，然后选择“Select nodes from selected rows”。

例如下图：

选中一行右键单击选择“Select nodes from selected rows”

可以将分析图片以PDF的格式保存到本地：Cytoscape菜单栏，选择“File”——Export as Image，然后设置为PDF格式。除了PDF格式之外，还有其他的格式。推荐基于矢量的PDF和SVG格式用作出版物质量的图，因为它们可以在不损失质量的情况下进行缩放。而不推荐使用JPG格式，因为它可能会因有损压缩而导致视觉伪像。

二.对GSEA通路富集分析结果进行EnrichmentMap可视化分析

与g:Profiler的操作类似：加载数据，设在参数

用Mesenchymal替代na_pos，Immunoreactive替代na_neg.

红色节点表示Mesenchymal，因为positive phenotype,而蓝色节点表达Immunoreactive

三.根据分析的重点，可以对得到的Enrichment map进行不同的操作。

1.探索Table Panel 的heat map。

（1）当提供基因表达矩阵(Expressions选项中输入表达矩阵文件)作为EnrichmentMap的输入时，我们可以研究包含在富集通路中的基因的表达模式。单击单个节点或一组节点以生成基因表达的热图，该热图将显示在“able Panel”面板的“heat map”选项卡中。如果分析基于GSEA结果并且提供了Ranks文件，则“leading edge”基因将以黄色突出显示以用于单个节点选择,有多种热图可视化选项可供选择。

单击一个节点得到的Heat map，其中Expressions选择"Row Norm", Compress选择“None”

（2）调整“sort”选项。排序选项包括分层聚类，排名或不排序。要更改排序选项，请单击热图表左上角可见的“Sort”按钮。默认情况下，如果提供了Rank文件，则热图按Rank排序。如果没有rank文件，则不应用排序。可以通过位于“热图”面板右上角的“设置”菜单(values后面有一个设置按钮)上传其他等级文件以进行比较。

（3）定义您希望在热图中可视化的基因。可以查看所选节点中包含的所有基因（节点的并集）的数据，或仅针对所选节点（节点的交集）共有的基因的数据。默认情况下，显示所有基因。

（4）根据您的数据类型更改“Expression”(在heat map图的上方)值可视化。数据可以在加载时查看（Value），如行标准化，在这种情况下，从每个值中减去行平均值，然后除以行的标准偏差（行标准），或者作对数转换（Log）。

(5)Compress (在heat map上方的一个选项卡)heat map的列。默认情况下，对于包含<50个样本的表达集，所有表达的值都可以作为热图中的单个列显示。通过选择Compress下的一个聚合方法 - Median，Max或Min），可以将数据压缩为单个列。如果已上传CLS文件，则可以使用“Class”选项使用每个已定义样本组的一列压缩表达集。如果表达矩阵包含≥50个样本，则EnrichmentMap将默认自动将值压缩为其Median。

(6)点击Values,除热图颜色标度外，还显示表达式数值。

勾选Values之后的heat map

(7)使用“set”面板对热图进行额外微调，单击齿轮图标即可访问。这包括添加新rank文件的功能，将热图数据导出为制表符分隔的文本文件或PDF图像，更改层次聚类的距离度量，或打开节点表热图自动对焦。得到的热图可以在上图中看到。在该图中，使用GSEA的rank文件对基因进行分类，突出显示黄色的“leading edge”。显示了所选节点中包含的所有基因，表达值是行标准化的，未应用Compress并且未显示单独的表达数值。

(8)可以将热图导出到文本文件以进行进一步分析：单击热图的“设置”图标并选择“Export as TXT”。

(9)如果仅选择单个节点，则会出现一个对话框，Leading edge only for GSEA analysis, 如果选中，只会输出突出显示的基因; 否则，整个基因组就被保存了下来

2.组织和阐明 network

（1）如果网络中有太多节点，请转到“Control Panel”中的“EnrichmentMap”选项卡，然后使用“Node Cutoff Q-value threshold”滑块。调整到接近0的数值将删除不太重要的节点。如果网络太过紧密连接，请转到“控制面板”中的“EnrichmentMap”选项卡，然后增加“Edge Cutoff (Similarity)”阈值，这将删除较少相关节点之间的连接。

Filter过滤选项卡可以通过调节Q值和Edge Cutoff来过滤节点数

（2）调整截止值后再次应用network layout（请参阅Cytoscape中的Layout菜单）。默认布局算法是未加权的Prefuse Force Directed布局。可以使用基因集similarity coefficient对prefuse force-directed layout进行加权，也可以使用其他的布局算法。

tip: Cytoscape中有许多不同的布局算法可用于EnrichmentMap。建议使用edge-weighted layout，该布局考虑路径之间的重叠分数。大多数layout（yFiles除外）提供了仅组织所选节点的功能。尝试使用不同的布局，以查看哪种布局最适合您的数据。如果您不喜欢生成的布局，可以在Mac上按下command-z或在Windows上按Ctrl-z，或单击编辑→撤消以恢复到上一个视图。

（3）要恢复nodes或edges，可以将阈值滑块调整到其原始位置。

（4）分开两种不同的表型。 Control Panel中的Select选项卡可以将所有红色节点置于一侧，将所有蓝色节点置于另一侧，这有助于分离两种不同的表型。

Control Panel中的Select选项卡

（4）单击“+”符号并选择“Column filter”。

（5）点击选择栏…选择 NES (Mesem vs Immuno)。

选择 NES

（6）单击“between”框，将值更改为0。单击面板底部的“Apply”。

更改为0后点击Apply

(7)现在应该选择所有红色节点。单击并按住任何选定节点并将选择拖动到左侧，直到它不与任何蓝色节点重叠。

托拉蓝色节点之前

托拉蓝色节点到左边之后（修正一下，这里只能托红色节点，不能托蓝色节点，而这幅图中我托了红色和蓝色节点）

（8）从Cytoscape菜单中选择Layouts并应用Prefuse Force Directed Layout→Selected Nodes Only→（无）。

（9）返回“Control Panel ”中的“Select tab”并调整滑块以选择所有负值。单击“Select”选项卡底部的“Apply”。

Select选项卡

（10）现在应该选择所有蓝色节点。单击并按住任何选定节点并向右拖动选择，直到它不与任何红色节点重叠。

（11）从Cytoscape菜单中选择Layouts并应用Prefuse Force Directed Layout→Selected Nodes Only→（无）。（这步的作用是清除刚刚拖动节点的操作，恢复原来的样子）

3. 定义主要的生物学主题

Enrichment maps通常包含代表主要生物学主题的类似通路的簇。可以使用AutoAnnotate Cytoscape应用程序自动定义和汇总群集AutoAnnotate首先使用clusterMaker2应用程序对网络进行群集，然后通过WordCloud应用程序根据路径名称中的词频来汇总每个群集。

（1）从Cytoscape菜单栏，加载AutoAnnotate。通过Apps → AutoAnnotate →New Annotation Set...

将会出现Create Annotation Set panel

（2）在Quick Start tab, 单击 Create Annotations.

(3) network中的每个群集都有一个围绕它绘制的圆形注释，并且将与一组对应于群集中最频繁的节点标签的words（默认为三个）相关联。这些words是自动选择的，通常必须手动重命名。在群集中移动单个节点将自动调整周围圆的大小，移动整个群集将重新绘制新群集位置中的周围圆。

（4）手动排列群集以清理图形。移动节点减少节点和标签重叠。

4.创建一个简化的网络视图

这将为每个集群创建一个具有汇总名称的组节点，并提供富集结果主题的概述，这对于包含许多节点的富集map非常有用。

(1)在Control Panel选择AutoAnnotate tab

（2）单击右上角的“Menu”图标

（3）选择Collapse All.

（4）Scale the collapsed network for better viewing。在Cytoscape菜单栏中，选择View →Show Tool Panel

（5）转到位于Control Panel的Node Layout Tools版面

（6）找到“Scale”滑块并在未选定的节点上使用它（取消选中“Selected only”）

（7）向左移动滑块以收紧节点间距。完成后关闭“Node Layout Tools”面板。

5. 手动安排network节点并更新主题标签

最清晰的网络视图和发表质量的图，进行这一步非常有必要。例如，将相似的主题（例如信号通路或代谢通路）汇集在一起是很有用的，即使它们未在地图中连接。应该优化空间的使用，以便没有大量的空白区域。这是一个耗时的步骤，但花费的精力越多，所得结果图质量就越高。

（1）如果图的焦点仅在网络的子集上，则可以更容易地仅使用子集。选择感兴趣的节点，然后在Cytoscape菜单栏中选择File → New → Network → From selected nodes → all edges来创建它。

（2）当图的目的是显示大型网络并仅突出显示主要主题时，单击位于Control Panel中的EnrichmentMap底部的Publication ready以删除节点标签。要恢复到原始网络，请再次单击“Publication ready”按钮。

（3）重命名AutoAnnotate生成的主题名称，以更好地解释通路组，自动生成WordCloud的主题名称对于快速浏览enrichment map非常有用，但经常需要重命名为发表质量的图。命名时应该仔细考虑每个主题内的所有的通路和基因。通过右键单击“Cluster”列中“AutoAnnotate”面板中的名称，然后选择“Rename”，可以在“AutoAnnotate”中重命名主题。

6.创建突出显示特定主题子集的subnetwork

丰富的组学数据集的Enrichment maps通常是大而复杂的，并且在最后的图中强调特定主题或相关通路通常是很有必要的。例如，将选择顶部间充质和免疫反应通路，并为详细的可视化创建subnetwork.

（1）