差异基因检测方法

2018-10-23 本文已影响35人 Y大宽

差异基因的检测方法很多，但生物学家偏好使用的是fold change（FC）和t-test。猜测因为一是它们比较简单，二来好解释。很多研究表明，改进的t-test可以提高top gene list的质量。现在简单的说一下原理

1 Fold change 或log ratio

指两个组group之间每个gene平均值在log2水平的差异。
FC=3=log2A-log2B=log(A/B)
所以，A/B=2^3=8
这样有一个缺点就是高的FC并非真正的差异，而是来自变异，并无生物学意义。
值得注意的是，基于FC的gene list比基于t-test的可重复性强，但这不代表着更准确。
所以，如果关注基因表达的绝对变化，则看FC
如果关注潜在的噪音，则用t-test。
也就是说，FC只考虑到组间差异，二未考虑组内变异。

2 T-test

差异性=signal/noise，期中signal即为组间变异，二noise为组内变异
groupA和groupB的差异XA均值-XB均值，这个同FC的M均值。受3个因素影响
（1）Fold change（M均值）：M均值越大，t值越大，也就是说signal大
（2）Variance（s）：s越小，t越小，就是组内差异大，即noise大
（3）sample size（n）：n越大，t越大，即M均值和s同样的情况下，n越大，结果越精确。

上面可以看出，即使FC不大，但s值足够小，也会有大的t值，所以引入惩罚t-test。初衷是避免将表达水平和变异程度较低的无生物学意义的gene识别为差异gene。

其中，s0是个小的正数。引入s0消除s过小
可见，若S小，则S0作用大，反之，S大，S0作用小。
芯片分析中的SAM（significant analysis of microarrays）即这种方法。
步骤
（1）samples在AB之间随机打乱重拍1000次，d-value依次计算，这些d-value的均值作为整个gene的d-value，观察到的d-value偏离期望d-value越大，越可能是真正的差异gene。
（2）随着作者的cut off(德尔塔value）被选择，需要权衡差异基因数目和假阳性结果的数目（FDR）.

继而，有基于贝叶斯理论的moerated t-test。也是最常用的。

3通过机器学习方法进行特征基因选择

包括贝叶斯模型，支持向量或随机森林。

差异基因检测方法

1 Fold change 或log ratio

2 T-test

3通过机器学习方法进行特征基因选择

猜你喜欢

热点阅读