STARsolo

2024-04-07  本文已影响0人  可能性之兽

STARsolo是一个集成在RNA-seq比对工具STAR中的单细胞/核RNA-seq数据的基因表达定量分析工具。它提供了一个全面的"一站式"解决方案,可以完成从reads比对到基因表达定量的全流程分析。
STARsolo: accurate, fast and versatile mapping/quantification of single-cell and single-nucleus RNA-seq data | bioRxiv

STARsolo的主要特点包括:

  1. 高精度:通过模拟数据测试,证明了STARsolo在定量基因表达方面优于其他基于转录组伪比对的工具。

  2. 兼容性:STARsolo的结果与当前最流行的10X Genomics的Cell Ranger工具高度一致,可以作为其替代品使用。但是速度据说比cellranger快十倍

  3. 全面性:STARsolo可以处理UMI和cell barcode信息,适用于多种主流的scRNA-seq建库方案,并可扩展到新技术。

  4. 多基因reads:STARsolo能考虑比对到多个基因的reads,这对某些特殊基因的检测很重要,而许多其他工具忽略了这一点。

  5. 高效性:得益于比对和定量过程的无缝整合,STARsolo拥有极高的计算效率,速度远超CellRanger等流行工具。

  6. 功能多样性:除了常规的基因表达定量,STARsolo还可以分析其他转录组特征,如细胞类型特异性的可变剪接。

STARsolo可以执行从读取到数字基因表达量(Digital Gene Expression,DGE)矩阵的全流程分析。这包括读取对齐、UMI(Unique Molecular Identifier)处理、细胞和分子条形码识别以及基因量化,它整合了这些步骤为一个高效的流程。

以下是STARsolo工作流程的主要步骤:

  1. 读取映射:首先,STARsolo将读取(reads)映射到参考基因组上,类似于STAR对齐器在其他应用中的行为。这包括识别剪接位点和对齐到外显子。

  2. 细胞和UMI条码处理:然后,STARsolo处理3'端或5'端的单细胞RNA测序数据中的细胞条形码(cell barcodes)和UMI。它会对这些序列进行质量控制,校正潜在的错误,并将它们分配给特定的细胞和分子。

  3. 基因量化:STARsolo使用对齐的读取和处理后的条形码来量化基因表达。它统计每个细胞中每个基因的UMI数量,生成一个DGE矩阵,其中行代表基因,列代表单个细胞。

  4. 结果输出:最终,STARsolo输出一个包含了所有识别的细胞的基因表达矩阵,这个矩阵可
    以直接用于后续的分析,如聚类、细胞类型鉴定、差异表达分析等。

运行 STARsolo 从 FASTQ 文件生成基因计数矩阵 — Cumulus 2.5.0 文档

# 设置使用的线程数(CPU数量)
STAR --runThreadN $CPUS 

# 指定包含索引化基因组文件的目录
--genomeDir $REF 

# 指定用于映射的输入读取文件
--readFilesIn $R1 $R2 

# 设置输出文件的目录权限(所有用户读写执行)并指定文件格式(GZIP压缩,BAM格式)
--runDirPerm All_RWX $GZIP $BAM 

# 启用solo(单细胞)分析选项
--soloBarcodeMate 1 
--clip5pNbases 39 0 
--soloType CB_UMI_Simple 
--soloCBwhitelist $BC 
--soloCBstart 1 
--soloCBlen $CBLEN 
--soloUMIstart $((CBLEN+1)) 
--soloUMIlen $UMILEN 
--soloStrand Forward 
--soloUMIdedup 1MM_CR 
--soloCBmatchWLtype 1MM_multi_Nbase_pseudocounts 
--soloUMIfiltering MultiGeneUMI_CR 
--soloCellFilter EmptyDrops_CR 

# 设置最小对齐得分阈值
--outFilterScoreMin 30 

# 指定输出中要包含的特征(基因,完整基因,Velocyto分析)
--soloFeatures Gene Velocyto 

# 指定solo分析的输出文件名
--soloOutFileNames output/ features.tsv barcodes.tsv matrix.mtx 

# 启用多映射处理,使用期望最大化(EM)算法
--soloMultiMappers EM 

# 指定如何输出未映射的读取(Fastx格式)
--outReadsUnmapped Fastx

https://cloud.tencent.com/developer/article/2366729

上一篇 下一篇

猜你喜欢

热点阅读