小鬼的WGCNA分析详解(一)-发育调控
分析范围实例详解一:发育调控
此次讲解的文章信息如下:
- Title:A novel microglial subset plays a key role in myelinogenesis in developing brain
- Published Date:28 September 2017
- Published Journal :The EMBO Journal(2017 IF: 10.557)
- Author:
- 第一作者:Agnieszka Wlodarczyk,Department of Neurobiology Research, Institute for Molecular Medicine, University of Southern Denmark(南丹麦大学), Odense, Denmark(丹麦)
- 通讯作者:Trevor Owens,Department of Neurobiology Research, Institute for Molecular Medicine, University of Southern Denmark, Odense, Denmark
1.背景知识
image.pngMicroglia:小胶质细胞。中枢神经系统 (central nervous system,CNS) 中的细胞大致分为两类:神经元(neurons)和神经胶质细胞(glial cells)。小胶质细胞是神经胶质细胞的一种,正常情况下,数量不多,主要分布在大脑、小脑的皮质以及脊髓的灰质中。主要功能:作为中枢神经系统固有的免疫效应细胞,针对刺激,形成活化的小神经胶质细胞,可表达各种抗原,行使抗原递呈细胞(APC)的功能。
2.数据使用(WGCNA分析使用数据)
数据情况如下:GSE78809(17个样本)
1)新生儿Neonates-8N
- 4个CD11C+
- 4个CD11C-
2)实验性自身免疫性脑脊髓炎experimental autoimmune encephalomyelitis ,EAE-6N:
- 3个CD11C+
- 3个CD11C-
3)成年组adult-3N
- 3个CD11C-
解读:主要有17个样本,每一个类别都有大于三个以上的生物学重复,有与大脑发育相关的新生儿组别和成年组别。
3.结果解读
文章中主要有8个结果,这里我们主要看WGCNA部分的结果,结果三。
结果3:Distinct gene signatures in microglia subsets during development and EAE
使用的数据:作者使用的是二代测序数据中所有基因表达的CPM值
WGCNA was applied to the count per million (CPM) expression data.
图A:样本关系聚类图,这里看到三个组成年组,新生儿组以及EAE组都分开了,并且组内的CD11c+和CD11c-也可以区分开。
image.png疑问点:有意思的是作者用来做样本聚类的数值,我在文章找了老久没有看到图中横纵坐标的值是怎么算的,有知道的可以下方留言讨论哈。一般来说,对样本进行聚类可以做层次聚类和PCA分析,WGCNA常见的是层次聚类树。
图B:模块聚类树,图的上部分是对基因进行的聚类树,下面是根据相似性聚成的模块,文章中总共得到了7个模块,我们可以在图E中看到是那几个模块以及每个模块涉及到的功能。
image.png图E:每个模块的基因数以及各个模块的功能,灰色模块是没有聚类到任何模块的基因集合。
image.png图C:表型和模块相关性图,这里可以看出哪些模块和你关注的表型之间的关系是否显著
image.png这张图需要用到一个很重要的表型数据,这里可以看到作者是如何将分类变量数值化的,文章中是这样描述的:
Six binary variables were generated that were used to calculate the module trait relationships in which all groups were set to zero with the exception of particular groups of interest:
- control(1’s for microglia obtained from healthy control brain)
- **CD11c **(1’s for both EAE CD11c and neonatal CD11c),
- EAE (1’s for CD11c negative and microglia obtained from EAE brains),
- neonatal (1’s for CD11c negative and microglia obtained from neonatal brains),
- CD11c EAE, and CD11c neonatal.
翻译为表格就是:
image.png对这张图的解读很重要,它关系到了你后面挑选的具体重点分析模块,以及你如何看这里面的正相关和负相关,曾经有个小伙伴问我:
这里的负相关算相关么?我看到的大多数文章都是对正相关的结果进行的分析
具体的模块与表型以及联合模块功能的解读这里就不详细说了,文章中描述非常详细,如何将所挖掘到的模块与发育联系起来。
总结:作为技术层面的细节,这篇文章里可以看到用于WGCNA分析的样本数,组内重复样本数,用来分析的基因,用基因的什么值,表型数据如何数值化
之前,WGCNA针对常见分析结果出过一版图文详解专题,此次我会给出一个分析过程详解专题,大概包括以下这些内容吧:
- 1.WGCNA适用于什么分析内容?
- 2.做WGCNA分析我该使用什么数据,是NGS中基因表达的count值还是FPKM,还是都可以?芯片数据的基因水平的表达值?是否需要log转换?是否需要标准化?
- 3.我该选取哪些基因进入分析?是全部的基因还是只用差异表达的基因还是经过了某种过滤手段后选取的一部分合理(为什么合理)的基因?
- 4.多少样本量合适呢?怎么检测异常(离群样本),这些样本是删除还是可以进入后续分析?会给分析结果带来怎样的影响?
- 5.如何选取softpower,在最初构建softpower的时候取值范围如何选择,用1-20还是什么?为什么?
- 6.如何选取模块以及模块中的Hub基因?
- 7.表型变量中的分类变量应该如何合理的数值化?
- 8...等等更多精彩解说。