WGCNA分析详解专题(一)
此次分析详解专题将讲述以下内容,老规矩,如有理解错误,还请各位大侠批评指正!
WGCNA适用于什么分析内容?
表型变量中的分类变量应该如何合理的数值化?
做WGCNA分析我该使用什么数据,是否需要过滤?
我该选取哪些基因进入分析?是全部的基因还是只用差异表达的基因?
多少样本量合适呢?怎么检测异常(离群样本)?
如何选取softpower?
如何选取模块以及模块中的Hub基因?
WGCNA分析应用(一):发育调控
此次讲解应用的文章信息如下:
Title:A novel microglial subset plays a key role in myelinogenesis in developing brain
Published Date:28 September 2017
Published Journal :The EMBO Journal(2017 IF: 10.557)
第一作者:Agnieszka Wlodarczyk,Department of Neurobiology Research, Institute for Molecular Medicine, University of Southern Denmark(南丹麦大学), Odense, Denmark(丹麦)
1.背景知识
Microglia:小胶质细胞。中枢神经系统 (central nervous system,CNS) 中的细胞大致分为两类:神经元(neurons)和神经胶质细胞(glial cells)。小胶质细胞是神经胶质细胞的一种,正常情况下,数量不多,主要分布在大脑、小脑的皮质以及脊髓的灰质中。主要功能:作为中枢神经系统固有的免疫效应细胞,针对刺激,形成活化的小神经胶质细胞,可表达各种抗原,行使抗原递呈细胞(APC)的功能。
2.数据使用(WGCNA分析使用数据)
数据情况如下:GSE78809(17个样本)
8个新生儿Neonates:4个CD11C+和4个CD11C-
6个EAE(experimental autoimmune encephalomyelitis):3个CD11C+和3个CD11C-
3个成年组adult:3个CD11C-
解读:主要有17个样本,每一个类别都有大于三个以上的生物学重复,有与大脑发育相关的新生儿组别和成年组别。
3.结果解读
文章中主要有8个结果,这里我们主要看WGCNA部分的结果,结果3:Distinct gene signatures in microglia subsets during development and EAE
1.使用的数据:作者使用的是二代测序数据中
所有基因表达的CPM值
WGCNA was applied to the count per million (CPM) expression data.
2.图A:样本关系聚类图,这里看到三个组成年组,新生儿组以及EAE组都分开了,并且组内的CD11c+和CD11c-也可以区分开。
疑问点:有意思的是作者用来做样本聚类的数值,我在文章找了老久没有看到图中横纵坐标的值是怎么算的,有知道的可以下方留言讨论哈。一般来说,对样本进行聚类可以做层次聚类和PCA分析,WGCNA常见的是层次聚类树。
3.图B:模块聚类树,图的上部分是对基因进行的聚类树,下面是根据相似性聚成的模块,文章中总共得到了7个模块,我们可以在图E中看到是那几个模块以及每个模块涉及到的功能。
4.图E:每个模块的基因数以及各个模块的功能,灰色模块是没有聚类到任何模块的基因集合。
5.图C:表型和模块相关性图,这里可以看出哪些模块和你关注的表型之间的关系是否显著
这张图需要用到一个很重要的表型数据,这里可以看到作者是如何将分类变量数值化的,文章中是这样描述的:
Six binary variables were generated that were used to calculate the module trait relationships in which all groups were set to zero with the exception of particular groups of interest:
control(1’s for microglia obtained from healthy control brain)
CD11c (1’s for both EAE CD11c and neonatal CD11c),
EAE(1’s for CD11c negative and microglia obtained from EAE brains),
neonatal(1’s for CD11c negative and microglia obtained from neonatal brains),
CD11c EAE, andCD11c neonatal.
翻译为表格就是:
对这张图的解读很重要,它关系到了你后面挑选的具体重点分析模块,以及你如何看这里面的正相关和负相关,曾经有个小伙伴问我:
这里的负相关算相关么?我看到的大多数文章都是对正相关的结果进行的分析
具体的模块与表型以及联合模块功能的解读这里就不详细说了,文章中描述非常详细,如何将所挖掘到的模块与发育联系起来。
4.总结
这篇文章IF在10以上,虽然发表时间比较早了,但是还是值得仔细读一下的。特别是对结果层面的生物学意义的解读,很多文章最终结果都只是空泛的说挖掘出了一个biomarker就完了,空洞又无趣
。 作为技术层面的细节,这篇文章里可以看到用于WGCNA分析的目的,样本数,组内重复样本数,用来分析的基因,用基因的什么值,表型数据如何数值化以及对结果如何进行解读和下游分析。