转录调控专题 | WGCNA-加权基因共表达网络分析
近年来,很多SCI高分文章中都使用了WGCNA分析,那么其分析原理究竟是什么,它可以应用于哪些研究方向,又如何从WGCNA分析结果中挖掘有意义的数据呢?现在就带着这些问题,跟着小编一起学习探讨吧!
WGCNA概念
WGCNA ,全称为weighted gene co-expression network analysis,即加权基因共表达网络分析。该分析方法旨在寻找协同表达的基因模块(module),并探索基因网络与关注的表型之间的关联关系,以及网络中的核心基因。
WGCNA分析基于两个假设:
1. 相似表达模式的基因可能存在共调控、功能相关或处于同一通路;
2. 基因网络符合无尺度分布
简单举例解释就是样本之间的各个基因是否存在共同表达的模式,例如基因A和基因B是否在某一个阶段中存在相同的表达模式——两者同时上调表达或下调表达。这个方法就是利用这样的思路将样本中基因表达进行分析,探究基因间是否具有共表达的现象,并且根据一定的数值给某一团共表达的基因划分成一个模块,这样聚在一起的不同的团的基因就划分为不同的模块。例如关于调控花青素合成的基因可能就会聚类在同一个模块里面,关于调控叶绿素合成则可能会聚类在另一个模块里面。但是,WGCNA的分析还不止于此,它还可以利用这些模块和表型数据进行聚类,找到这个模块中的核心基因(权重较高的一些基因),也就是hub gene。
WGCNA适用范围
WGCNA一般适合于复杂的转录组数据,推荐5组(或者15个样品)以上的数据。
应用的研究方向主要为:不同器官或组织类型发育调控、同一组织不同发育调控、非生物胁迫不同时间点应答、病原菌侵染后不同时间点应答。
WGCNA术语
在WGCNA分析中有很多相关专业术语,乍看之下可能会让人一头雾水,但其实本质并不复杂,为了后续更好地解读结果数据,就让我们从了解专业术语开始吧!
Co-expression network(共表达网络) :undirected, weighted gene networks,其点代表基因,边代表基因表达相关性,加权(weighted)是指对相关性值进行幂次运算。
Connectivity (连接度):类似于网络中 “度”(degree)的概念,用字母k表示。每个基因的连接度是与其相连的基因的边属性之和。
Module(模块):高度內连的基因集。在无向网络中,模块内是高度相关的基因。
Module eigengene E(模块特征值):模块内所有基因进行主成分分析(PCA),第一主成分的值即为Epigengene。它代表该模块内基因表达的整体水平。
Module membership:给定基因表达谱与给定模型的eigengene的相关性。
Hub gene:关键基因 (连接度最多或连接多个模块的基因)。
TOM (Topological overlapmatrix):把邻接矩阵转换为拓扑重叠矩阵,以降低噪音和假相关,获得的新距离矩阵,这个信息可拿来构建网络或绘制TOM图。
基本原理及方法
WGCNA主要有以下四个步骤:
第一步:构建基因网络;
第二步:分层聚类构建基因模块;
第三步:筛选关键模块
第四步:鉴定关键基因
第一步:构建基因关系网络
基因间相似性(similarity):根据基因在不同样品中的表达情况,用Pearson相关系数计算任意两个基因之间的相关系数(Person Coefficient)。
为了衡量两个基因是否具有相似表达模式,一般需要设置阈值来筛选,高于阈值的则认为是相似的。但是这样如果将阈值设为0.8,那么很难说明0.8和0.79两个是有显著差别的。因此,WGCNA分析时采用相关系数加权值,即对基因相关系数取N次幂,使得网络中的基因之间的连接服从无尺度网络分布(scale-freenetworks),这种算法更具生物学意义。
软阈值(soft-thresholding):
β值选取:powers <- c(c(1:10), seq(from = 11, to = 20, by = 1)
sft <- pickSoftThreshold(datExpr, powerVector = powers, verbose = 5)
左图横轴均代表权重参数 β, 左图纵轴代表对应的网络中 log(k)与 log(p(k)) 相关系数的平方,红线是此次 WGCNA 分析对应的软阈值和相关系数。相关系数的平方越高,说明该网络越逼近 无网路尺度的分布。
为什么要对2个基因的相关性系数进行幂运算?
基因相关系数经幂函数处理后,少数强相关性不受影响或者影响较小,而相关性弱的取n次幂后,相关性明显下降。如图,对相关性值进行12次幂的运算,数值较小的回趋向0,随着数值大的增大,结果也快速增大。对两个基因的相关系数进行β次幂运算强化了强相关,弱化了弱相关。使基因间的连接网络转化为无尺度网络。前人证明,基因网络接近无尺度网络。
第二步:分层聚类构建基因模块
动态混合剪切法
利用基于TOM值的相异度构建层次聚类建树;建树方法:动态剪切树和静态剪切树。
聚类树的不同分支代表不同的基因模块,不同颜色代表不同的模块。基于基因的加权相关系数,将基因按照表达模式进行分类,将模式相似的基因归为一个模块。这样就可以将几万个基因通过基因表达模式被分成了几十个模块,是一个提取归纳信息的过程。
图 模块层次聚类树图第三步:筛选关键模块
1)根据表达模式分析
我们根据模块特征值(Epigengene,对模块内所有基因进行主成分分析,第一主成分的值即为Epigengene)来计算代表该模块内基因表达的整体水平。如果某模块在样品中特征值的正或负表达较高,说明模块与这个样品关系紧密。
2)模块与样本(表型)相关性
通过计算样本与模块间相关性,我们查看具体那些模块基因与我们关注样本处理紧密相关,从而筛选出重点模块。
3)依据目标基因筛选模块
依据研究目的、前期研究结果和已发表文献,有重点关注的目标基因,可直接筛选目标基因所在的基因模块重点进一步分析。
第四步:鉴定关键基因
TOM值(模块调控系表中的weight值)大于阈值(默认是0.15)的两个基因才认为是相关的,然后计算每个基因的连接度。即先筛选有足够强度的关系,然后计算连接度,连接度越强,说明越处于核心地位;
连接度Connectivity(degree)-连接度:与某个基因连接的所有其他基因的总和,即描述一个基因与其他所有基因的关联程度,一般用K值表示,即我们可以根据K值考前的基因确定hub核心基因。
以上就是WGCNA的分析原理部分,接下来让我们一起结合转录组的WGCNA分析结果来看一下吧。
结果解读
R包分析路径结果中主要有以下文件:
从上面介绍的原理和方法中,可以看出,我们重点关注及挖掘数据主要在“3.模块特征及表达模式”及“4.调控网络文件”。
下面我们重点介绍下主要结果
1. 模块层次聚类
WGCNA分析会根据基因间表达量的相关性构建聚类树。图中上半部是网络中的基因聚类树,一个树叶就是一个基因,不同基因模块便是这棵树的树枝。中间部分 Dynamic Tree Cut 是使用动态剪切法获得不同的模块图,其中不同的颜色代表不同的模块。底部 Merged colors 是将相异性系数小于 0.25 的模块合并后的图,其中不同的颜色代表合并后的模块。
2. 模块基因聚类热图
随机选择 1000 个 基因画拓扑重叠热图,每一树状图代表一个模块,每一个分支代表一个基因,每 个点的颜色越深(白→黄→红)代表行和列对应的两个基因间的连通性越强。
3. 模块与模块之间的相关性热图
该图可分为两部分,上部分是根据模块特征值进行的聚类,通过提取每个模块的特征向量基因作为某一特定模块第一主成分基因,也代表了该模块内基因表达的整体水平,然后对不同模块的特征基因进行了层次聚类,纵坐标的数值是反应的是不同模块间的相似度,越小表示两个模块间相似度越高。下部分是不同模块间的聚类热图,图中每一行和列代表一个模块。方块中颜色越深(越红),相关性越强;方块颜色越浅,相关性越弱。
4. 模块与样品的相关性热图
横坐标为样品,纵坐标为模块,每个格子的数字代表模块与样品的相关性,该数值越接近1,表示模块与样品正相关性越强;越接近-1,表示模块与样品负相关性越强。括号里的数字代表显著性 P value,该数值越小,表示显著性越强。
5. 模块内基因表达模式图
该图结果可分为两部分查看,表头注释为模块名,上图左侧为基因名,横坐标为样本名, 上图为模块中基因在不同样本中的表达量热图,红色为高表达,绿色为低表达, 通过上图可直观看出模块中的基因在不同样本中的表达趋势。下图为模块特征值在不同样本中的表达模式,横坐标为样本名,通过下图柱状图的展示,可直观看出哪个样本中的 gene 在该模块下普遍高表达。
6. 各模块基因关系节点文件
模块网络节点关系文件,是每个模块内基因之间相互关联的文件,fromNode是源节点,toNode是靶节点,weight是邻接矩阵的边权重,代表两个节点(基因)之间的连接强度,数值越大代表两个节点(基因)紧密联系或共同表达;direction是连接的方向性,fromAltName和toAltName分别是fromNode和toNode对应的gene_symbol名,需要提供对应的注释文件,否则为NA。
我们可以使用Cytoscape软件利用关系节点文件weight值(TOM值)来绘制网络图。
以上就是WGCNA分析相关内容介绍,今天的分享就到此结束啦,希望本次的分享可以帮助到大家更好地理解WGCNA分析。