关于测序的背景与实验

一次理解一张图—coefficients of variatio

2019-08-25  本文已影响46人  刘小泽

刘小泽写于19.8.24
因为经常看的下面👇这样的图,因此有必要看看它到底代表什么意思,有什么用?
另外我发现,看懂一个图,关键有两个:一个是对图中点的认识度有多少:是代表基因还是样本;另一个是横纵坐标,为什么要这么设定(比如使用了log),以及其中的公式(例如mean、CV、sd等)

图片来自:https://jdblischak.github.io/singleCellSeq/analysis/cv-adjusted.html

(剧透:上图中的纵坐标意思就是:基于count计算的方差与均值的比值再取log10,继续往下看)

简单理解

下面来自:https://www.investopedia.com/terms/c/coefficientofvariation.asp

Coefficient of variation

下面来自:https://influentialpoints.com/Training/Coefficient_of_variation_Use_and_misuse.htm

下面来自一篇文章:https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-015-1806-8

它介绍了使用低丰度转录本,对比barcode和原始的reads count来说明barcode的好处

再回到第一张图

看图例,三角形的点是ERCC,圆形的点是内源基因,一般ERCC是表达量很高并且很稳定的,可以用来指示技术误差(就是说,如果已经加入了稳定外源的RNA,表达量结果依然波动很大,就说明不是受到生物因素的干扰,而是外在操作的技术问题,比如PCR扩增偏好)。

使用CV统计指标比较ERCC和内源基因,也是为了兼顾高、低两种维度的数据(ERCC表达量一般都成百上千,而内源少的只有几个。如果是单细胞数据,更多的会是0)

然后我们看到我们的内源基因CV分布比ERCC的CV分布更偏下,也就是比ERCC分布更稳定

还有一张类似的:

DOI: 10.1038/s41467-018-07582-3

CV-mean图主要还是为了质控,至于怎么做出来的,可以看我写的这篇:https://www.jianshu.com/p/3525e624946a


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!
上一篇 下一篇

猜你喜欢

热点阅读