RNA-seq生物信息学转录组数据分析

鉴定差异基因时的一些问题

2019-02-15  本文已影响13人  刘小泽

刘小泽写于19.2.15

先来看一个例子

如果得到的表达矩阵如下:

基因 低抗-1 低抗-2 低抗-3 高抗-1 高抗-2 高抗-3
gene1 49 50 51 90 100 110
gene2 1.5 0 1.5 1 2 3
gene3 49 50 51 40 60 200

发现:

建库测序是随机抽样的过程

同一样本的两次测序,同一基因的reads count数也会出现差异

因此,如果发现两个样本的reads count不同时,先别着急判断它们是真的表达丰度差异,还要考虑随机抽样过程中的波动

既然一开始我们没有办法排除随机抽样的波动影响,那么我们可以先做一个假设,然后计算在随机抽样波动的前提下,出现目前这种情况的概率是多少,如果概率比较低就表示随机抽样波动情况很难发生,那么就更有可能是真实的表达丰度导致

上面的方法日常称之为反证法,统计学中称之为假设检验

既然假设检验是统计学知识,那么就存在错误的可能

有时将非差异表达基因鉴定成为差异表达基因=》一类错误/假阳性/误诊率=》与P value对应=》通过设置P value阈值进行控制【这个阈值就是我们常用的0.05或者0.01】,即每一百次判断中可能有5次/1次将非差异表达基因鉴定成了差异表达基因

例如:

基因 低抗-1 低抗-2 低抗-3 高抗-1 高抗-2 高抗-3 Pvalue
gene1 49 50 51 90 100 110 0.02
gene2 1.5 0 1.5 1 2 3 0.32
gene3 49 50 51 40 60 200 0.36

有时将差异基因误诊为非差异基因=》二类错误/假阴性/漏诊率

假设得到的gene3的P值是0.36,大于0.05,无法拒绝原假设【但并不是说gene3不是差异表达基因】,此处只是表示证据不足,无法判断

如何降低两类错误呢?

需要再强化的知识点有

正态分布、中心极限定理、均值、方差、z-score、z检验、t检验、卡方检验


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!
上一篇下一篇

猜你喜欢

热点阅读