生物信息学与算法单细胞测序Single Cell RNA-seq

单个细胞的测序?(part 2)

2018-09-29  本文已影响100人  刘小泽

刘小泽写于18.9.29
上一次是理论知识和准备工作,这次开始软件安装和测试

软件安装和检测

cellranger这个软件内容十分丰富,整合了大量的第三方工具,因此解压需要一段时间,解压完成后导入环境变量,按照官方要求,还要进行安装检测,看一下安装是否完整;另外把下载的数据库文件也解压一下

cd /db/10X
tar -xzvf refdata-cellranger-ercc92-1.2.0.tar.gz
tar -xzvf refdata-cellranger-hg19-1.2.0.tar.gz
tar -xzvf refdata-cellranger-hg19-and-mm10-1.2.0.tar.gz
cd /opt
tar -xzvf cellranger-2.2.0.tar.gz
export PATH=/opt/cellranger-2.2.0:$PATH
cellranger testrun --id=tiny # 32核检测大约8分钟,检查结束如下图,会生成tiny/tiny.mri.tgz这样的文件
安装检测

cellranger主要包括:

# Usage:
cellranger mkfastq #将Illumina得到的原始BCL文件转为FASTQ

cellranger count # 比对、过滤、条形码和UMI计数
cellranger aggr # 针对多个样本的情况,把count合并而且标准化成相同的测序深度之后,再计算gene-barcode矩阵
cellranger reanalyze #将count或者aggr得到的gene-barcode 矩阵进行降维、聚类

# 10X Genomics的专属算法和RNA测序比对软件STAR结合,可以得到BAM、MEX、CSV、HDF5、HTML的标准格式的结果
不同的流程

下载测序数据

cellranger要求fastq格式的数据,可以通过cellranger mkfastq转换、illumina的bcl2fastq转换、已发布数据集、cellranger bamtofastq转换得到

下载已有的数据集:https://support.10xgenomics.com/single-cell-gene-expression/datasets,选择小鼠1k Brain Cells from an E18 Mouse数据集,来自E18小鼠皮层、海马区和脑室下区,结果检测到了931个细胞

nohup wget http://cf.10xgenomics.com/samples/cell-exp/2.1.0/neurons_900/neurons_900_fastqs.tar &

# total 5.4G
37M Aug 25  2017 neurons_900_S1_L001_I1_001.fastq.gz
643M Aug 25  2017 neurons_900_S1_L001_R1_001.fastq.gz
1.8G Aug 25  2017 neurons_900_S1_L001_R2_001.fastq.gz
239M Aug 25  2017 neurons_900_S1_L002_I1_001.fastq.gz
646M Aug 25  2017 neurons_900_S1_L002_R1_001.fastq.gz
1.8G Aug 25  2017 neurons_900_S1_L002_R2_001.fastq.gz

文件的命名规则:[Sample Name] S1_L00 [Lane Number][Read Type]_001.fastq.gz。
比如这里sample name是neurons_900,lane有两个1和2,
Read type有三种:I1Sample index read也就是cell-barcode;R1read1((UMI) reads);R2read2

与普通fastq文件相比,单细胞RNASeq fastq文件包含条形码和唯一分子标识符(UMI)的额外信息。从文件大小也能看出来,只有read2是转录本序列

cellranger count --id= mm_neurons \ #生成的文件都放在这个名字的目录下(必选)
--fastqs=/project/scRNA-seq/10X/raw/neurons_900_fastqs \ #(必选)
--transcriptome=/db/10X/refdata-cellranger-mm10-1.2.0 \ #(必选)
--expect-cells=900 #(可选)期望得到的细胞数
--localcores 10 \ # CPU

如果数据包括许多sample,可以指定--sample=SMAPLENAME,另外还可以指定lane的编号,如--lanes=1

运行成功会提示:

结果文件
目录 描述
analysis 降维PCA、聚类、差异分析(全是CSV矩阵)
cloupe.cloupe Loupe Cell Browser可视化及分析文件
filtered_gene_bc_matrices 过滤后的gene-barcode矩阵(只包含MEX格式)
filtered_gene_bc_matrices_h5.h5 过滤后的gene-barcode矩阵(HDF5格式)
molecule_info.h5 使用cellranger aggr产生的信息,作用是把样本组合成更大的数据集
possorted_genome_bam.bam reads比对到带有barcode注释的基因组和转录组
possorted_genome_bam.bam.bai bam的index信息
raw_gene_bc_matrices 未过滤的gene-barcode矩阵
web_summary.html 网页版总结(下图)
summary

Cellranger的一些知识

比对流程

了解下分子条形码/标签

分子条形码又称分子标签(MolecularBarcode, 又称UID Unique identifiers, UMI Unique molecularidentifiers)是对原始样本基因组打断后的每一个片段都加上一段特有的标签序列,来区分同一样本中成千上万的不同的片段,在后续的数据分析中可以通过这些标签序列来排除 DNA 聚合酶、扩增以及测序过程中所引入的错误

一般UMI由大约10nt的随机序列(如:NNNNNNNNN)或者简并碱基(根据密码子的兼并性,常用一个符号代替某两个或者更多碱基,如NNNRNYN)。它和样本标签(sample barcode)不同,UMI是针对一个样本的不同片段,而样本标签是为区分不同样本 加上的标签序列。

一个样本只能有一个相同的样品标签,但可以有成千上万的分子条形码

何为UMI?

设置UMI目的:PCR 和测序过程中的错误是随机发生的,根据UMI可以去除冗余,降低低频突变的假阳性率


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!
上一篇下一篇

猜你喜欢

热点阅读