GeneWalk 基因通路分析
高通量功能基因组学的分析每次能得到成百上千的基因和大量的通路,要在这大量的基因和通路里分析出生物学意义上更重要的部分很依赖于个人的经验和知识,尤其是许多的基因都是多功能的。GeneWalk 利用深度学习从整合的数据库分析出单个基因在特定研究条件下的功能信息
GeneWalk 分析流程如下图。输入数据是一个基因列表(比如说差异基因),首先基于数据库(INDRA)构建基因及通路网络(Gene Network),并且用 Pathway Commons 构建只有基因的网络,然后再给网络添加上 GO 节点形成 GeneWalk network(GWN). 然后是 DeepWalk 算法对 GWN 进行随机游走(Random Walk)得到网络节点的向量表示,节点对的相似度等于相应节点向量之间的余弦相似度。然后进行统计检验,计算基因与 GO 通路的关系显著性,并进行多重检验(所有的基因与通路)的 P 值调整。
GeneWalk 安装和使用
GeneWalk 是 Python 模块,使用 pip 命令直接安装。
pip install genewalk
安装后先下载需要的资源,会下载到家目录。
python -m genewalk.resources
使用时仅需要提供一个基因列表(每个基因一行)文件,比如说提供差异基因列表。
GeneWalkDir=~/Examples/GeneWalk
genewalk --project GSE117765 --genes ${GeneWalkDir}/DEGsList.txt \
--id_type entrez_human --base_folder ${GeneWalkDir} --nproc 4
GeneWalk 分析结果
GeneWalk 所有的结果将输出到 --base_folder
参数指定的目录。最主要的结果文件是 genewalk_results.csv
里面包含了每个基因和注释到的通路数据。其中 global_padj
是对所有的“基因-通路”对进行多重统计检验校正后的 P 值;而 gene_padj
是对该基因的所有“基因-通路”对进行校正的 P 值;pval
是初始的 P 值。
每个基因还会生成条形图,直观方便。
红线是软件默认的 P 值阈值 —— 0.1
为了方便鉴定重要的转录调节基因(Regulator)会生成下图所示的散点图。每个点是一个基因,散点大小表示注释到的 GO 通路数目,X 轴表示与其他基因连接数目,Y 轴表示注释到的 GO 通路中显著的通路占比,默认是一个基因调整后 P 值小于 0.1 的通路数目比该基因注释到总基因数目。
越右上方的点就越可能是重要的 Regulator
另一个散点图用于鉴定 moonlight gene(多功能基因)。散点图 X 轴为注释的 GO 通路数目。散点大小为与其他基因连接数目。
越右下的点越可能是行使了多功能的基因
上面 2 个散点图把鼠标放到点上就会显示该基因的数据,同时软件也提供了标记了基因名的 PDF 版本,结合自己的课题需要,就能更容易从众多的基因和通路中定位到关键的基因和通路。
当然了,工具永远不是目的,用 GeneWalk 得到这些结果后还是要结合课题进行分析,只是提供另一种角度,还是需要多技术多角度去综合思考。
参考文献
Ietswaart R, Gyori BM, Bachman JA, Sorger PK, Churchman LS. GeneWalk identifies relevant gene functions for a biological context using network representation learning. Genome Biol. 2021 Feb 2;22(1):55. doi: 10.1186/s13059-021-02264-8. PMID: 33526072.