单细胞转录组数据产生基础
2020-02-07 本文已影响0人
新欣enjoy
基本原理要分析单细胞转录组数据,首先还是了解数据产生的原理和基本构成吧。
关键微珠组成
主要步骤
- 构建微珠组成,Barcode,细胞身份ID;UMI,DNA分子身份ID,poly(dT)VN,与mRNA polyA尾互补从而捕捉mRNA
- 10X 机器分选获得油包水乳状体,理想结果是一个油珠包裹一个细胞及必要的逆转录反义物。分选结构符合泊松分布。
- 在油状体内完成cDNA逆转录合成。
- 裂解乳状体,抽离标记的分子,进行illumina扩增反义。
数据结构
由每个细胞每个基因的表达量构成的高维表达矩阵。
影响表达矩阵可信的因素
- doublet,即一个微珠包裹了两个或多个细胞产生的表达量混池。通常是控制原始细胞数量在1万以下,减少“pool”的产生。
- 批次效应。由于不同时间、不同人员、不同机器产生的不同批次的数据,可能造成非生物学差异。矫正批次效应就是尽量让不同批次的数据重新组合在一起,只考虑生物学差异。
- 低丰度表达基因,及表达量为0或接近为0的基因。因为其在下游分析中不能反映一定的统计学作用,可通过平均表达量过滤。
- 细胞周期,一般选择G1期细胞进行下游分析。可通过scran包的cyclone函数估计细胞的各个时期。 操作参考
- 低质量细胞,由于制样中细胞破损导致线粒体RNA或核RNA比例升高或是本身文库较小而影响归一化结果。可通过scater包初步检视基因的表达分布并作进一步分析。质控操作参考
总结
目前主要的10x 技术平台较为成熟,官方也提供了CellRanger获得单细胞转录组表达矩阵,但是得到了表达矩阵只是下游分析的基础,如何评估表达矩阵可靠性有许多值得考虑的因素,尤其是低质量细胞、低丰度表达基因、批次效应等。
补充
Scran 估计细胞周期操作
借助函数比较简单,前提是提供准确的参数。第一个是sce对象,第二个是可信的分类器,即marker gene pairs,第三个是待分析样本的基因Ensemble ID。其中gene pairs 可借助scran cyclone 自带的函数。
##初步探索
source("https://bioconductor.org/biocLite.R")
biocLite("scran")
library(scran)
help(package="scran")
mm.pairs <- readRDS(system.file("exdata", "mouse_cycle_markers.rds",
package="scran"))
??cyclone
??sandbag