对于单个单细胞样本，多少的测序数据量才合适

2021-04-19 本文已影响0人 Kevin_Hhui

前言，今天刚好在群里看到有人问“请问10X一个样本测多少个G比较好”，群主给出了答复，但是我对300这个数怎么来的还是不理解，出于好奇心，于是去查了一些资料，最终理清楚了。

问题来源：

问题

正文

首先，需要明确一点: 数据量大小其实就是碱基的个数。
那么，数据量大小的计算方法是：
1. 单端测序
数据量=reads长度 * reads个数 (reads长度很容易得知，reads个数等于测序所得到的fastq文件的总reads数)

2. 双端测序
数据量=单端reads长度 * 单端reads个数 * 2
通常测序数据量的单位都是用“G"表示，例如1G。需要强调的是，这里所说的G不是说测序文件在硬盘上的大小为1G，而是表示10亿个碱基。这是如何计算的呢？
首先，我们需要知道1个碱基=1 byte ；
其次是，1kb=10^3 byte 1M=10^6 byte 1G=10^9 byte。
所以，1G的数据量=10^9=10亿个碱基。
此外，测序数据量还有另外一种表示方式，即cluster。一个cluster表示一个DNA片段（对于RNA-seq，则表示一个片段化后的RNA分子）。比如说某一个样本测序数据量为30M 的 cluster。如果采用双端测序技术，每个cluster从两端都测一次，每次测150bp, 所以就会得到30M * 2=60M的reads数，然后reads数乘以每条read的长度就是我们最后的测序数据量（碱基数），即为60M * 150=9G的碱基数。

我们知道了测序数据量是如何计算的，那么问题来了，对于一个测序样本，需要测多少G 的数据量才能满足实验要求呢？要回答这个问题，首先要搞清楚几个概念。

1.测序深度（Sequencing depth）：是指测序得到的碱基总量（bp）与基因组大小的比值，即测序深度=数据量大小 / 参考基因组大小。或者理解为基因组中每个碱基被测序到的平均次数。
2. 测序覆盖度（Sequencing coverage）：是指测序获得的序列占整个基因组的比例。或者可以理解为基因组上至少被检测到1次的区域（或者是碱基），占整个基因组的比例。

通常来说，测序深度与基因组覆盖度之间是一个正相关的关系，测序带来的错误率或假阳性结果会随着测序深度的提升而下降。在测序过程中，10X的测序深度就能够满足基本的实验目的。

以上是一些背景知识，回归正题，当我们想做一个单细胞样本的测序，该测多少数据量呢？以10X为例。
10X官方有PBMC单细胞测试数据，4000K细胞，每个细胞平均是50K的reads。
我们一般都在公司测序，那么公司的人一定会推荐你每个样本是3~8K细胞，平均每个细胞15-50K的reads这样的测序策略。

以上我们就知道了对于单个单细胞样本，平均每个细胞需要测序的reads数，即15-50K reads/cell，通常为50K reads/cell。

为了得到总的数据量，我们必须还要知道reads长度，因为我们的计算公式就是
双端测序：数据量=单端reads长度 * 单端reads个数 * 2

为了知道reads长度，我们就不得不去查一查，10X单细胞测序的测序模式是什么。查阅得知，其测序模式为PE150。这里的PE150就是指双端测序，每条read长度150bp
那有同学就肯定会问了，那单端测序呢，举例：SE150，即单端测序，每条read长度150bp。

知道了这些，那最开始的那个问题就解决啦。
由于做的是10X单个单细胞样本，测序模式为PE150。单个细胞需测序的reads数推荐为50K reads/cell，以10,000细胞为例。

数据量=150 * 50 * 1000 * 10000 * 2 = 300 * 50000 * 10000 = 150G

参考：如何估算测序数据量？
说清楚你的单细胞转录组课题多少个样品，测序数据量如何
 测多少数据量？几个G？多少reads？如何换算？

对于单个单细胞样本，多少的测序数据量才合适

前言，今天刚好在群里看到有人问“请问10X一个样本测多少个G比较好”，群主给出了答复，但是我对300这个数怎么来的还是不理解，出于好奇心，于是去查了一些资料，最终理清楚了。

正文

数据量=150 * 50 * 1000 * 10000 * 2 = 300 * 50000 * 10000 = 150G

猜你喜欢

热点阅读