转录组数据分析转录组WGCNA

小鬼的WGCNA分析详解(三)-挖掘与表型(体重)相关的基因

2021-07-12  本文已影响0人  信你个鬼
文献信息如下:

Title:Integrating Genetic and Network Analysis to Characterize Genes Related to Mouse Weight
Published Date:August 18, 2006
Journal:PLoS Genetics (IF:7.63)
Author:Anatole Ghazalpour(第一作者,Department of Microbiology, Immunology, and Molecular Genetics, University of California Los Angele ),Steve Horvath2,3*(通讯作者,University of California Los Angeles)

这个文章可以说是最早的那批使用WGCNA策略来进行关键基因筛选的的文章,可以看到文章的图并不怎么美观,但是这个文章拿出来讲有以下几个原因:

数据

1.表达谱:

使用了F2杂交的136个Female小鼠liver样本,3600个基因进行WGCNA分析。

重点:对于选择什么基因进行WGCNA网络分析,这个文章提供了比较详细和特别的理由说明,之前有人问过我用什么基因进入WGCNA分析,这篇文章的选取策略说不定能给你带来收获,原则上只要是一个gene set就可以,可以是全部的表达基因,也可以是上游你做差异分析得到的差异gene set,也就是说这个gene set怎么来的会有很多方法。

但是关于用什么基因做,官网有一个推荐,官方给的是不建议使用差异表达基因做:


image.png

此外,关于使用什么值来做WGCNA,作者也有提到:

image.png

ref:https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/faq.html

文章中基因的筛选策略为:

For module detection, we limited our analysis to the 3,600 most-connected genes because our module construction method and visualization tools cannot handle larger datasets at this point. By definition, module genes are highly connected with the genes of their module (i.e., module genes tend to have relatively high connectivity). Thus, for the purpose of module detection, restricting the analysis to the most-connected genes should not lead to major information loss. Since the network nodes in our analysis correspond to genes as opposed to probesets, we eliminated multiple probes with
similar expression patterns for the same gene.

2.表型数据:

测量了以下这些变量, 本文最关注的是与肥胖相关的体重,是一个数值型变量.


image-20200415225941630.png
结果

1.Construction of a Weighted Mouse Liver Co-Expression Network

根据3600个基因,总共找到了12个模块,每个模块的基因数从34个基因(Light-yellow 模块)到最大的模块772个基因(Red模块)。模块的平均Kall为6.49 (Salmon模块) 到27.58 (Brown模块)

image-20200415204109115.png

由于这个文章比较老,这里作者使用三维图这构建的这个网络进行了可视化,后面的教程都是用的热图进行可视化的方法,这个具体可以看公众号的专题《WGCNA图文详解专题》。图中每一个点表示一个基因,颜色表示模块。点与点之间的距离表示拓扑矩阵中的值(topological overlap Matrix)。我们可以看到相同颜色即一个模块的基因都聚到了一起。

image-20200415204245445.png

2.Biological Significance of Network Modules

模块找出来了,接着就是探索模块的生物学功能,每个模块都参与了什么样的生物学过程。作者进行了GO数据库和KEGG数据库功能富集分析。比如

Brown模块:Biosynthesis of steroids pathway 和 Glycolysis/Gluconeogenesis pathway相关。

Blue模块:ECM-receptor interaction pathway 和 Complement and coagulation cascades pathway相关。

Green模块:the Toll-like receptor signaling pathway 和 the Cytokine–cytokine receptor interaction pathway以及the Hematopoietic cell lineage pathway相关。

然后,作者评估了每个模块与表型性状之间的关系,这里用的定义为GS(gene significance),这里可以看到很详细的解释,摘出来给大家体会一下:

image-20200416210800293.png

这个地方与Weight最相关的模块为Blue模块,使用的指标为MS,即每个模块中所有GS的平均值,现在的WGCNA分析关联表型与模块使用的指标为每个模块的eigengene值与表型性状之间的peason相关系数。

此外,还可以看到Blue module 与abdominal fat pad mass 性状,total mass (g) of other fat depots 性状相关。下图为Blue模块与几个临床性状之间的MS值展示。

因此,作者选择了Blue模块最后下游分析的深入挖掘。

image-20200415204736246.png

3.Genetic Analysis of the Network Modules

以上结果是关于只使用基因表达数的共表达模块分析。在下面,我们将模块基因表达与遗传标记联系起来

研究该网络遗传基础的数据模块。下图为Blue模块的mQTL 和Candidate cis-eQTL的关系

image-20200415204914570.png

4.Integration of Genetics and Intramodular Connectivity to Explain Physiological Significance of the Module

最后构建了三个线性模型,并评价了每个模型与Weight (GSweight) 之间的关系

image-20200416215521826.png image-20200415205210560.png

文章最终的结论是:

This indicates that genes with strong linkage to the Chromosome 19 locus, absence of linkage to the SNPs described on Chromosomes 2, 5, and 10, and high connectivity have the highest absolute correlation with weight.

image-20200416231249746.png

总结:针对本篇文章开头列出来的四点,你是否有些收获呢?

上一篇下一篇

猜你喜欢

热点阅读