单细胞计数矩阵是如何生成的?(二)

2022-10-28  本文已影响0人  数据科学工厂

导读

本文将介绍scRNA-seq的表达矩阵是如何生成。

1. 文库制备

根据所使用的文库制备方法,RNA 序列(也称为读数或标签)将来自转录本(10X GenomicsCEL-seq2Drop-seq)的 3' 末端(或 5' 末端) , inDrops) 或来自全长转录本 (Smart-seq)。

下面列出了这些方法的以下优点:

3' 端测序与全长测序需要执行许多相同的分析步骤,但 3' 越来越受欢迎,并且在分析中包含更多步骤。因此,将详细分析来自 3' 协议的数据,重点是基于液滴的方法(inDropsDrop-seq10X Genomics)。

2. 3’-end

对于 scRNA-seq 数据的分析,了解每个读数中存在哪些信息以及如何在分析中使用它是有帮助的。

对于 3' 端测序方法,源自同一转录本的不同分子的读数将仅源自转录本的 3' 端,因此具有相同序列的可能性很高。然而,文库制备过程中的 PCR 步骤也可能产生重复读取。为了确定读数是生物扩增还是技术扩增,这些方法使用唯一的分子标识符或 UMI

所以需要检查 UMI,无论采用哪种液滴方法,在细胞水平上进行正确量化都需要以下内容:

3. 流程

scRNA-seq方法将确定如何从测序读数中解析条形码和 UMI。因此,尽管一些具体步骤会略有不同,但无论采用何种方法,总体工作流程通常都会遵循相同的步骤。一般工作流程如下所示:

单细胞工作流程

工作流程的步骤是:

无论进行何种分析,基于每个条件的单个样本得出的关于总体的结论都是不可信的。仍然需要生物重复!也就是说,如果您想得出与总体相对应的结论,请做生物学重复。

4. 计数矩阵

首先讨论此工作流程的第一部分,即从原始测序数据生成计数矩阵。将重点关注基于液滴的方法使用的 3' 端测序,例如 inDrops10X GenomicsDrop-seq

测序后,要么将原始测序数据输出为 BCLFASTQ 格式,要么生成计数矩阵。如果读取是 BCL 格式,那么需要转换为 FASTQ格式。 bcl2fastq 工具可以轻松执行此转换。

对于许多 scRNA-seq 方法,从原始测序数据生成计数矩阵经历的步骤类似。

alevin 是一个命令行工具,用于估计 scRNA-seq 数据的表达,其中转录物的 3' 末端被测序。umi-toolszUMI 是可以执行这些过程的附件。这些工具结合了 UMI以纠正假阳性。此过程中的步骤包括:

  1. 格式化读取和过滤嘈杂的cellular barcodes
  2. 样本拆分
  3. Mapping到转录组
  4. 根据UMI进行定量

如果使用 10X Genomics 文库制备方法,则 Cell Ranger 管道包含上述所有步骤。

5. 数据解析

使用 FASTQ 文件解析cell barcodes, UMIs, 和 sample barcodes。对于基于液滴的方法,由于以下原因,许多细胞条形码将匹配少量读取(< 1000 读取):

在读取结果之前,需要从序列数据中过滤掉这些多余的条形码。为了进行这种过滤,提取并保存每个细胞的cellular barcodemolecular barcode。例如,如果使用umis工具,信息将添加到每次读取的header,格式如下:

@HWI-ST808:130:H0B8YADXX:1:1101:2088:2222:CELL_GGTCCA:UMI_CCCT
AGGAAGATGGAGGAGAGAAGGCGGTGAAAGAGACCTGTAAAAAGCCACCGN
+
@@@DDBD>=AFCF+<CAFHDECII:DGGGHGIGGIIIEHGIIIGIIDHII#

文库制备方法中使用的细胞条形码(cellular barcodes)是已知的,未知条形码将被丢弃,同时允许与已知细胞条形码的数量不匹配。

6. 数据拆分

如果对多个样本进行测序,则下一步是对样本进行拆分。这个过是由zUMIs完成的。需要解析读取以确定与每个单元格相关的样本条形码(sample barcode)。

7. 比对

为了确定reads来自哪个基因,使用传统 STARKallisto/RapMap进行align(对齐)。

8. 定量

重复的 UMI被去除,只有唯一的 UMI使用 KallistofeatureCounts 等工具进行定量。结果输出是一个细胞的基因计数矩阵:

计数矩阵

矩阵中的每个值表示来自相应基因的单元格中的读取数。使用计数矩阵,可以探索和过滤数据,只保留高质量的单元格。

本文由mdnice多平台发布

上一篇下一篇

猜你喜欢

热点阅读