如何把控数据质控那个“度”?
数据质控 Quality Control
单细胞测序对于样本质量要求非常严格,实验操作中是不能避免质量差的细胞被捕获,那么数据分析时如何剔除低质量的数据,获得高质量的单细胞数据用于下游的数据分析。今天小编带大家详细了解一下数据质控都有哪些参数可以调整来获得高质量的单细胞数据。
一、单细胞数据分析为什么要做数据质控?
在细胞解离获得单细胞悬液的过程中细胞会损伤,使得RNA信息丢失,细胞捕获过程中往往会引入一些低质量的细胞。在数据分析评估过程中,我们会通过判断单个细胞中检测到的counts值、检测到的基因数过低被认为是低质量的细胞,相反counts值过高,可能会是双细胞所造成的[1];由于损伤细胞和死细胞会表现出大量的线粒体污染,使得线粒体基因在细胞中高表达,可能会导致后续数据分析聚类时会单独形成线粒体基因高表达的细胞群而不是按细胞类型进行聚类,从而导致细胞分群出现误差,同时也可能会导致研究人员在做PCA获取主成分时主要体现了细胞质量的差异,而不是真正的生物学差异;以上情况都需要将低质量的细胞在数据质控时过滤掉。
二、如何做单细胞数据质控
数据质控时有多种参数可以调整来过滤低质量的细胞,如:细胞中counts值、检测到的基因数、线粒体基因比例、红细胞比例等。其中线粒体基因与红细胞比例与实验操作息息相关,在制备单细胞悬液时会经过裂红处理,尽可能去除样本中的红细胞,单细胞悬液的细胞活率越高,线粒体基因比例越低。线粒体基因比例大部分文章会设置10%或15%,如果对于质控要求更严格可以小于5%,比如:Peter等人精细刻画了乳腺癌T细胞的单细胞图谱,作者认为线粒体基因比例大于4%是低质量细胞[3]。
单细胞实验中双细胞率(一个油滴包裹多个细胞)是不可避免的,数据质控时可以用DoubletFinder、Scrublet等算法进行过滤,或者通过控制counts值的大小来进行双细胞剔除,比如:张泽民教授与合作者揭示多癌种内髓系细胞特征图谱,作者认为UMI数大于40,000以及检测到的基因数超过5,000是潜在的双细胞[1]。初步完成数据质控后,小提琴图可以看到样本数据的大致分布,来决定是否需要更严格的参数设置,如图1所示:nCount_RNA有部分离散值,其UMI数大于整体数据UMI,这可能是由于双细胞所造成的,可以通过调小UMI最大值来进行过滤。
小编不建议大家采用一刀切的数据质控方式,分析启动之前可以阅读与自己研究相关领域的单细胞文章同时结合自己样本的处理情况来进行合理的参数设置。
图1 数据质控[2]三、数据质控结果解读
大家在单细胞文章的补充材料中会看到数据质控结果,以小提琴图的形式展示(图1),图中小黑点代表数据的整体分布情况,横坐标为样本名,纵坐标分别为细胞中检测到的基因数、UMI数和线粒体基因比例。其中:
nFeature_RNA代表每个细胞中检测到的基因数
nCount_RNA代表每个细胞中的UMI数目
percent_mt代表细胞中线粒体基因比例
四、得到高质量单细胞数据后下一步该做什么?
数据质控完成后得到高质量的单细胞数据,同时也对数据进行“瘦身”节省计算资源,提高分析效率。那么数据质控完成后,接下来该怎么做数据分析呢?
1. 数据进行标准化处理,常用的函数如:NormalizeData;
2. 如果有多个样本,数据质控分别完成后可进行数据整合及批次效应校正。
参考文献
[1] Cheng S, Li Z, Gao R, et al. A pan-cancer single-cell transcriptional atlas of tumor infiltrating myeloid cells[J]. Cell, 2021, 184(3): 792-809. e23.
[2] https://satijalab.org/seurat/articles/pbmc3k_tutorial.html
[3] Savas P, Virassamy B, Ye C, et al. Single-cell profiling of breast cancer T cells reveals a tissue-resident memory subset associated with improved prognosis[J]. Nature Medicine, 2018, 24(7): 986-993.
划 重 点