10x单细胞数据分析之表达定量
1. 单细胞测序数据格式
通常使用illumina的NovaSeq/Xten对10x单细胞平台构建的文库进行测序。得到的BCL经过bcl2fastq或者cellranger mkfastq处理成常见的FASTQ格式的文件。Bcl2fastq得到的就是常见的下机数据文件,一般有两个文件分别对应Read1和Read2。Cellranger mkfastq本质上就是对bcl2fastq进行的封装,除了Read1和Read2两个文件,还会多一个Index文件(存放的拆分文库用的index信息,没有也不影响后续的表达定量)。FASTQ文件命名格式为[Sample Name]_S1_L00[Lane Number]_[R1|R2|I1]_001.fastq.gz。比如下面这样:
如果拿到的测序结果不是以这种格式命名的,需要先进行重命名,不然cellranger会识别不到样品对应的文件!
2. 表达定量
cellranger count是10x官方的表达定量流程,可以对FASTQ数据进行基因组比对,barcode和UMI计数,生成feature-barcode表达矩阵,对识别到的细胞进行聚类分群,并进行表达分析。cellranger count用法如下:
--id指定样品名,分析结果会保存在同名的文件夹中;
--transcriptome指定需要使用的参考基因组;
--fastqs指定了FASTQ文件的存放位置;
--sample指定了FASTQ文件中的样品名。
cellranger count需要的资源较多,建议在大型工作站或者服务器等配置较高的机器上运行。以150G数据量的人单细胞样品为例,使用28个线程,内存约40G,总耗长约4h。看到如下信息就表示运行顺利完成啦!
3. 结果说明
cellranger count运行过程中会生成以样品命名的文件夹,分析结果保存在下一级的子文件夹outs。
各个文件/文件夹说明如下:
web_summary.html里列出了常用的质控信息,包括:测序数据量、Q30、细胞数、基因组比对率等:
analysis文件夹保存了cellranger分析的细胞聚类和表达分析的结果。
cloupe.cloupe文件可以导入到10x官方软件Loupe Browser进行可视化分析filtered_feature_bc_matrix文件夹保存了分析得到的表达矩阵。
以上就是cellranger进行表达定量分析的介绍啦,分析得到的表达矩阵文件可以导入到常见的第三方分析软件(Seurat,scanpy等)进行进一步的分析,后续我们会一一分享哦!
更多新闻资讯请关注派森诺官网:http://www.personalbio.cn