【搬砖】Cibersort p-value含义
使用cibersort对不同的GSE文件进行免疫细胞类别计算,发现得出的p-value各不相同,有的全是0,有的(0,1)之中散在分布。。。不确定计算得到的结果是否可靠,因此有必要明确p-value的含义~


那么现在只剩下p值了,p值是怎么算的呢?
使用置换检验。
就是用蒙特卡罗方法,不断地从原来的数据中跟单个样本等长的数据,模拟新样本,进行CoreAlg计算。
每次抽取出相关性系数r,当次数足够多的时候,就形成背景相关性系数分布。
参考:http://www.sci666.net/56744.html
根据👆楼主的意思,cibersort函数内部使用的“置换检验”是关键,那么理解成每一个样本的计算其实需要参考整体样本,那么不同类别的(比如,bone metastasis/lung metastasis/primary)样本需要分别来计算的。(而我之前是把所有混在一起计算的)
我强行解释一波,每次真正的样本计算出来的r值,找到其在背景分布的位置,然后看右边红色的概率有多大。如果小于0.05,说明产生这种极端值并不是偶然的。
那么该样本的反卷积解析就是成功的,可信的。
参考:http://www.sci666.net/56744.html
p值小于0.05,说明产生「极端值」不是偶然的。
提取同一source(lymph node)的samples进行计算


上图可见Mast cell activated、NK cells activated等immune cell在不同样本中组成成分有较大不同……解释了为啥p-value会小于0.05。说明这批samples中的免疫浸润存在较大异质性。【存疑
接下来,改变置换次数,观察结果的差异。
使用上面同一个matrix。



迷糊了,最直接的问题:p-value<0.05好还是 >0.05好呢?
在cibersort用example data验证:Example job: Original Abbas et al. mixtures microarray (GSE11103)

得到的p-value均为0,这批样本有4类,差异较明显。
小结
p-value与perm置换次数、样本的异质性有关。
当p-value<0.05,说明存在异质性,最极端是p-value全为0.
当p-value全部大于0.05,说明这批样本的免疫细胞浸润无统计学差异。
end