由生物学重复引发出来的思考……

2020-02-11  本文已影响0人  鹿无为

写在前面的废话

这段时间闹肺炎,什么牛鬼蛇神都出来闹腾了。有的人是看热闹不嫌事大,有的人却是恶意造谣,凭空联想。因为一篇biorxiv上的文章,就能脑补出一部阴谋大剧,简直和唐人街探案有得一拼。

对于这些造谣者,他们干的事情不地道,但是其思考方式却是值得我们学习的。那就是联想,他们把所有糟糕的事情串到一起,略加渲染,做成了阴谋论,让人们过目不忘(我的父母就深受其害,使得我每天都要不断地为他们科普)。而我们可以将知识点串在一起,帮助我们加深印象。

太长不看系列

废话超多系列

首先我们区分一下生物学重复和技术重复,有的人可能不屑一顾,和我的反应一样。但是别着急,答应我先区分下面两种情况属于什么重复,答对了再嘲讽我好么?

  1. 现在有一只小鼠A,我们对它的肌肉组织取样,连续三次检测其基因表达水平
  2. 现在有一只小鼠A,我们连续三次对它的肌肉组织取样,然后分别对该样品进行测序

文字不方便理解的话,可以看下面的图示:

事实上,这两种重复都是属于技术重复,因为它们都是针对的一只小鼠做的实验(一个生物)。但是这两种技术重复的侧重点有些许不同。

那么,什么是生物学重复呢?比如我有一群小鼠,我挑选其中三只,做相同处理,然后分别取样检测基因表达水平:


这是因为,我们的每一次测量都来自于不同的小鼠(生物)。除此之外,我们还可以知道,生物学重复研究的重点从个体转移到了这类群体。

既然有了重复(有了不同的样本),我们接下来需要考虑的就是样本数的问题:

但是,如果蓝色小鼠有一个双胞胎弟弟,那么此时的样本数是多少呢?是3还是4呢?


事实上,样本数介于3和4之间。这个时候,样本数不再是简单的加和,而是要考虑有效样本数(effective sample size)。计算公式如下:


此时我们需要关注这两只蓝色小鼠的相关性,若相关系数为0.7,则这俩双胞胎所代表的样本数为2/(1+(2-1)*0.7)=2/(1+0.7)=1.18

若相关系数为0.1,则这俩双胞胎所代表的样本数为2/(1+(2-1)*0.1)=2/(1+0.1)=1.82

由此可知,两个双胞胎小鼠的相关性越低,所代表的样本数越大。相关性越大,则所代表的样本数越小。甚至若二者完全相同,我们可以把他们看作是一个(把他们看作是技术重复,不影响样本数)

写在后面的话

需要注意的是,很多人使用过deeptools,里面涉及到一个effectiv genome size的定义。该定义与effective sample size完全不同,千万不要混淆。

effective genome size 相当于是去除了基因组中为N的那些碱基之后的长度。

参考资料
上一篇 下一篇

猜你喜欢

热点阅读