转录组研究好帮手-WGCNA分析
问:我做了疾病发展过程六个阶段的转录组研究,可是文章投稿编辑说我的研究太单薄?除了差异分析,我还能不能用转录组的数据再挖掘一些信息出来呢?
答:您可以试试WGCNA分析呀?
相信很多老师都有这样的困扰——利用转录组数据,仅仅做差异表达就够了吗?其实不光是转录组项目,如何利用已有的数据,挖掘更多的信息来丰满我们的研究结果呢?这里,线条姐给大家推荐的WGCNA分析便是其中的一种方法。
WGCNA(Weightedgene co-expression network analysis),即权重基因共表达网络分析,这种方法旨在寻找协同表达的基因模块(module),并探索基因网络与关注的表型之间的关联关系,挖掘网络关系中的核心基因。
WGCNA权重共表达网络分析方法重点解决两个问题:
1.样本组成非常复杂的项目,可以通过WGCNA进行归纳整理;
2.可以使用表达量数据预测基因间的相互作用关系。
那么,它是如何实现的呢?
如果某些基因在一个生理过程或不同组织中总是具有相类似的表达变化,那么我们有理由认为这些基因在功能上是相关的,就可以将这样的基因定义为一个module。确定了Module之后,就可以对样本构成较为复杂的数据进行归纳,利用module来研究基因间的互作关系,挖掘新的与表达变化相关的基因。
首先来看看WGCNA的分析流程:
→第一步
通过数据处理,使用加权的表达相关性,构建基因共表达网络。基因调控网络,理论上讲,只有少数基因和多个基因间存在互作关系,符合无尺度分布特征(下图左)。基于对基因表达情况的相关性,构建出基因的共表达网络。
通过评价基因的共表达情况,构建出基因的共表达网络之后,就要进行模块的划分了。
→第二步
就可以通过加权相关性,进行层级聚类分析,通过基因间的相关系数进行聚类建树,获得不同的基因模块了(下图)。这样获得的每一个模块中的基因,其表达模式都是相似的。将大量的基因划分成具有相同表达模式的模块,一方面简化了数据,另一方面,也更有利于我们寻找“研究目标”。
→第三步
当清楚的获得基因构成的module之后,我们需要对这些集合开展分析,寻找我们感兴趣的模块。这里就有很多的思路可以借鉴了:
首先,是基于module进行功能富集分析,结合表型信息,鉴定与性状相关的模块。通过功能富集分析,可以对每个module的功能进行描述,进而选择与我们的研究相关的模块继续下游的研究。例如在红皮沙梨套袋的转录组研究[1]中,利用去除套袋和不去除套袋组处理不同时段样本的差异基因进行WGCNA分析,共鉴定出17个基因模块。以其中的blue模块为例,富集分析显示blue模块与花青素含量高度相关(下图),就此可以确下一步与花青素合成研究的重点在blue模块中。
然后,通过研究module内基因的表达情况,可以进行转录变化的机制研究,也可以进一步挖掘模块内基因的功能。还是在这篇研究中,通过模块研究,发现了去袋后沙梨中花青素相关基因的连续性表达变化过程[1]。
以上是基于模块的层面开展研究。而获得模块的信息,也可以针对某些目标模块内部的基因调控关系开展研究。
推荐挖掘两方面的信息:
1. 目标模块中处于核心位置的关键基因(驱动基因);
2.根据模型中已知基因的功能推测未知基因的功能。
先说驱动基因的挖掘。在一个模块中,基因的“地位”也是不一样的:在基因互作的网络关系中,处于网络调控中心位置的通常是转录因子等关键的调控因子,也是研究中的“核心”,值得我们重点关注和深入分析。2018年发表的一篇“纯WGCNA分析”的文章就是沿用的这一思路:利用TCGA人类癌症数据库中的基因表达数据,对眼睛葡萄膜黑色素恶性肿瘤的数据进行WGCNA分析,构建基因的共表达网络,获得21个基因模块,结合表型数据发现与此恶性肿瘤临床数据相关的基因模块(绿色模块),在此模块中挖掘“核心基因”,进而挖掘出SLC17A7,NTRK2, ABTB1, ADPRHL1等基因可能在葡萄膜黑色素瘤的发生中有重要作用。
此外,在同一个模块中,被调控关系连接的基因,表达模式又是相似,那么他们很有可能具有相似的功能,这样就方便我们通过已知基因的功能推测未知的基因功能,也可以挖掘出与我们关注表型相关的“新基因”,这就为下游对未知的基因和功能进行验证提供了很好的筛选和参考。在对甘蓝型油菜的研究中,研究者就采用了WGCNA分析筛选出黄籽表型相关的模块[3],由于黄籽是提高作物品质的重要育种目标,挖掘与之相关的基因意义重大。研究通过已知的黄籽相关基因,挖掘出一些黄籽微效作用基因(下图),并发现这些基因多参与到苯丙烷、类黄酮及原花青素代谢途径中,这些信息是在常规的GWAS分析中没有被检测到的。
参考文献:
[1] Transcriptome analysis of baggingtreated red Chinese sand pear peelsreveals light-responsive pathway functions in anthocyanin accumulation. Scientificreports,2017.
[2] Co-expression modules construction by WGCNA and identifypotential prognostic markers of uveal melanoma.Experimental EyeResearch, 2018.
[3] Mining yello-seeded microeffect Loci in B. napus by integratedGWAS and WGCNA analysis. ActaAgronomicaSinica, 2018.