RNA测序中多少生物学重复合适
RNA测序中多少生物学重复合适
-
来源:生物谷
-
时间: 2018/8/20 15:08:00
-
浏览人数: 331
RNA-seq(RNA测序技术)和微阵列芯片技术是基因表达研究用到的两种手段,两种技术手段各有优势,例如RNA-seq的技术差异低,可以从头测序(denovo)、发现新的可变剪切等,而芯片对低表达基因的检测稳定性更好(图1,当基因表达丰度较高时(横坐标RPKM较大时),测序和芯片之间的数据质量都是非常好(纵坐标CoV即变异系数越小,数据质量越高),但当基因表达丰度变低时(横坐标RPKM较小时),RNA-seq的数据质量急剧下降,而芯片则仍然维持着高水准[1])、数据结果简单等。
image图1 测序和芯片再现性比较
在典型的实验中,基因表达差异可以分解为群体差异(Group variability),测量差异( measurement error)和生物学差异(biological variability)。群体差异是指由于实验中的不同群体而导致的基因表达的变化,如肿瘤群体和健康群体。此种类型的差异可以通过比较不同生物群体的样本而得以测定。测量差异可以通过技术重复进行估计,并可以通过技术改进而降低。而生物学差异只能通过同一群体的多重生物学重复而得以测定或降低。同时因为基因表达实际上是一个随机的过程,并且在相同群体的不同个体之间也是变化的,所以无论采用哪种技术,不同个体之间真实的基因表达水平都存在差异。
已有文献证明无论是RNA测序还是芯片,都无法消除生物学差异。而其中生物差异的影响被忽略。芯片研究中低重复实验通常导致没有足够的统计功能来正确表示差异表达基因,并且不能准确地测定生物学差异。RNA-seq研究中使用不充分的生物学重复,导致统计功效低和测序资源的低效使用。Hansen等人[2]通过比较芯片和测序数据,证明不同个体的生物学差异与检测技术无关,所以无论RNA测序还是芯片都无法消除生物学差异。同时,他们还提出了两个结论:使用少量生物学重复时,研究中得到的基因差异显著结果可能是由于生物学变异,并且具有不可重复性;此外,表达模式的特异性到底是由于研究个体的差异,还是研究群体的固有特征,也不得而知。所以需要大量生物学重复来证明科学结论的合理性。
Robles等人[3]通过分析一系列不同数量的生物或技术重复、测序深度和分析方法,对不同设置下检测差异表达的能力的详细分析。Table 1中对生物学重复的分析发现:随着生物学重复增加,假阳性率(FPR,false positive rate)基本不变;真阳性率(TPR,true positive rate)不断提高,且提高幅度很大;而差异表达基因所占比例(call rate)也是不断提高。这说明生物学重复对真阳性率即数据准确性,以及差异基因检出的影响很大。生物学重复的增加可以提高数据准确性,检测出更多的差异基因。
表1:生物学重复对差异基因检出率的影响
imageLiu等[4]以人类细胞MCF7为研究对象,显示更多生物学重复和更深层次测序之间的明确权衡,以增加检测差异表达基因的能力。图2表示FDR<0.05时不同重复和不同测序数据量下检测的差异表达基因数:同一测序数据量下,增加重复数,检测到的差异表达基因明显增多。而同一重复数下,增加测序数据量,检测到的差异表达基因也会增加,但增长幅度和重复数增加的幅度相比小,尤其是测序数据量在10M以上时,差异基因数量增加更加平缓。说明重复数对差异表达基因检出的影响很大。
image图2: FDR<0.05时不同测序数据量、重复数检测到的DE数量(edgeR)
Conesa等[5]研究了不同差异倍数和测序深度,不同生物学重复数下检测到的差异基因的比例差异,如Table 2所示:当重复数不变时,基因差异倍数越大,检出率越高;同等差异倍数的基因,生物学重复越多,检出率越高:生物学重复数为3时,对2倍差异基因的检出率为87%。而重复数为5时,2倍差异基因的检出率提高到98%,重复数达到10时,2倍差异基因100%检出。同一测序深度下,增加重复数,其差异基因检出率也得以极大提高,例如测序深度为10M时,重复数为3时,检出率仅为33%,当重复数提高为10时,检出率为80%。
表2:生物学重复、测序深度和差异倍数阈值对基因检出的影响
image上面讨论了生物学重复对基因真阳性率检出、差异基因检出的影响,可知生物学重复越多,得到的可靠数据越多。既然生物学重复这么重要,那在实验中我们采用多少生物学重复最合适呢?
Schurch等人[6]研究了RNA-seq中采用多少生物学重复以及哪种统计工具才能获得最真实有效的数据。实验中利用酵母的野生型和Δsnf2突变体进行RNA测序,并分别做了42个和44个生物学重复。作者即利用edgeR统计方法说明了不同重复数(nr)和|log2(FC)|阈值(T)下,显著差异基因所占比例、真阳性率以及假阴性率等的变化趋势:
image随着重复数(nr)的增加,检测到的显著差异基因的比例也逐渐增加,但其增加逐渐平缓
imageTPR(true positive rate,真阳性率)随着不同重复数(nr)和不同差异倍数阈值(T)的增加而增加,增加趋势逐渐平缓并最终趋于稳定。
image随着重复数增加,TP(true positive,真阳性),FP(false positive,假阳性),TN(true negative,真阴性)和FN(false negative,假阴性)的变化明显不同:其中,TN和FP保持稳定,不因重复数的变化而变化,并且FP保持在极低的水平。而FN和TP趋势相反,说明随着重复数的增加,假阴性逐渐转换为真阳性,更多的差异基因被检出,实验结果更加准确全面。当重复数达到6个时,是FN和TP的交汇点。
之后作者采用11种分析软件,比较了nr分别为3,6和12,T分别为T>0,T>0.5和T>2时FPR和TPR的变化差异,如下图所示,TPR随着nr或T的增加而增加。由图A-D可知,T降低时,TPR也降低,但降低的TPR可以通过增加nr来提高。由图A可知,nr为3,T>0时,TPR在20%~40%之间,说明低重复时得到较少的差异基因。由图E和F可知,T>2时,TPR>85%,FPR接近0,当nr为20时,TPR在85%~95%之间,说明可以检测到大部分的差异基因,并且随着nr的增加,TPR增加平缓。
image图:不同DGE分析工具在不同样本数和差异阈值条件下真阳性率和假阳性率比较
最后,作者最终得到以下结论:
1、 RNA-seq实验中,应该使用至少6个生物学重复;
2、 如果实验目的是鉴定所有倍数变化的差异基因时,至少需要12个生物学重复;
3、 当每组重复数少于12时,使用分析软件为edgeR(exact)或者DESeq2;
4、 当每组重复数大于12时,使用分析软件为DESeq。
综上,基因表达是一个随机过程,所以生物学差异是基因表达的基本特征。因此基因表达研究需要有足够的生物学重复来证明实验结果的准确性。出于科研经费和实验结果准确性的综合考虑,RNA测序中每组至少使用6个生物学重复。若实验目的是鉴定所有倍数变化的差异基因,至少需要12个生物学重复。
参考文献
1、 Xu, Weihong, et al. “Human Transcriptome Array for High-Throughput Clinical Studies.” Proceedings of the National Academy of Sciences of the United States of America, vol. 108, no. 9, 2011, pp. 3707–3712.
2、 Hansen K D, Wu Z, Irizarry R A, et al. Sequencing technology does not eliminate biological variability [J]. Nature Biotechnology, 2011, 29(7):572-3.
3、 Robles J A, Qureshi S E, Stephen S J, et al. Efficient experimental design and analysis strategies for the detection of differential expression using RNA-Sequencing [J]. Bmc Genomics, 2012, 13(1):484.
4、 Liu Y, Zhou J, White K P. RNA-seq differential expression studies: more sequence or more replication? [J]. Bioinformatics, 2014, 30(3): 301-4.
5、 Conesa A, Madrigal P, Tarazona S, et al. A survey of best practices for RNA-seq data analysis [J]. Genome Biology, 2016, 17(1): 13.
6、 Schurch N J, Schofield P, GierliåSki M, et al. How many biological replicates are needed in an RNA-seq experiment and which differential expression tool should you use? [J]. Rna-a Publication of the Rna Society, 2016, 22(6): 839-851.