WGCNA（二）WGCNA的步骤和原理

2019-06-30 本文已影响266人小洁忘了怎么分身

链接：http://genek.tv/，本文是该课程的学习记录。

1.共表达

两条基因的表达模式相似，即在某些样本中两条基因表达量都高，某些样品中表达量都低。

用相关性系数r量化
-1<r<1
负值代表负相关，0代表不相关，正值代表正相关

2.网络

1.相关概念

节点（node）：图上的圆点，每个圆点代表一个基因。
连接（link）：图上的线，每条线代表两个基因的关系（可设置阈值，例如>0.7即标记相关）
加权网络（weighted network）与无权网络（unweighted network）的区别是：加权网络的线条有粗细之分，粗细表示权重。
邻接度：节点之间的关系强弱。一个网络里的所有基因形成一个邻接矩阵(adjacency matrix)。
连通性(connectivity)：反映节点的重要程度，与多少其他节点有关，以及关系的强弱。
无权网络不显示权重，它的连通性只是连接基因的数目。
加权网络的连通性是所有有关节点的关系强弱的叠加。

2.随机网络与无尺度网络

无尺度网络中，多数节点都只与几个节点有关（红色点）；极少数节点与很多节点有关（蓝色点）。如果将每个节点的连接数进行排序，会发现无尺度网络的连通性符合幂律分布。
因此，一个模块中有很多基因，但关键基因只有几个。

3.分析步骤

第一步：数据预处理

（1）行名是样本名，列名是基因名。如果拿到的是表达矩阵，需要转置。
（2）去掉所有样本中表达量都很低的基因
（3）去掉所有样本中表达量几乎没有差异的基因，可用sd筛选，但不建议只保留差异基因（备注：这里说的差异基因，是指差异显著的基因）。

第二步：构建相关性矩阵

相关系数范围是-1~1，WGCNA分析要求转换为0-1范围。
有两种转换方式：
unsigned:不区分正相关和负相关
signed：区分正负相关

第三步：构建邻接矩阵

多大的相关系数算相关？需要设置阈值。
软阈值：soft threshold，用power函数将相关性矩阵转换成邻接矩阵，需要确定power的参数β。

迭代一系列值，看β等于哪个值时：（1）这个网络更接近于无尺度网络
（2）尽可能保留连通性信息。

左右两张图的横坐标都是软阈值，👈左图纵坐标是无尺度网络的评价指标r^2，r2越接近1，该网络就越接近无尺度网络，通常要求＞0.8或0.9。
👉右图纵坐标是平均连通性，该值随β的增加而降低
综合两张图，通常选r^2第一次达到0.8或0.9以上时的β值。
有了β值就可以根据公式将相关性矩阵转换为邻接矩阵。