生信处理组学数据软件单细胞多组学(RNA + ATAC)

umi_tools for dealing with UMIs

2020-07-23  本文已影响0人  生信云笔记

今天跟大家分享的工具可以是用来处理带有分子标签(Unique Molecular Identifiers,UMIs)和细胞条形码(cell barcode)的数据。目前来说,比较主流的单细胞测序数据都包含UMIs和barcode,下面就来演示这款工具是如何处理单细胞数据的。

首先来看一下这款软件的功能概况:

Step Inputs Output
Find Cell barcode whitelist Read 1 fastq whitelist.txt
Extract CB/UMIs and filter CBs R1 + R2 fastqs + whitelist.txt extracted fastqs
Map reads extracted fastqs BAM
Assign reads to genes BAM + transcriptome GTF BAM
Count unique reads per genes per cell BAM Counts.txt

软件安装有以下三种方式:

#第一种
$ conda install -c bioconda -c conda-forge umi_tools

#第二种
$ pip install umi_tools

#第三种
$ unzip 1.0.0.zip
$ cd UMI-tools-1.0.0
$ python setup.py install --user

具体使用步骤:

1、提取cell barcode白名单

whitelist 命令会从原始数据种提取去可能的cell barcode。通常情况下,10X的barcode长度为16nt,umi长度为10nt;Drop-seq的barcode长度为12nt,umi长度为8nt。示例代码如下:

umi_tools whitelist --stdin hgmm_100_R1.fastq.gz \  
                    --bc-pattern=CCCCCCCCCCCCCCCCNNNNNNNNNN \ 
                    --set-cell-number=100 \    
                    --log2stderr > whitelist.txt

常用参数解释
--stdin:指定输入文件或者标准输入。
--plot-prefix:指定QC统计图的前缀,可用于判断细胞数阈值设置是否合理。
--bc-pattern:指定cell barcode和umi的位置,默认情况下,他们位于序列的5'端,否则可用--3prime参数改变。cell barcode用同等数量的字符"C"表示;umi用同等数量的字符"N"表示。
--set-cell-number:设置检测到的cell barcode数量,若事先知道数量可设定,否则省略软件会自动判断(结合QC图判读阈值是否合理,若不合理可人为设定阈值重新分析)。
--expect-cells=200:设置检测到的cell barcode数据上限,该值是根据捕获效率预估得到(一般10X捕获效率不低于10%),结合QC图判断阈值是否合理,若不合理可人为设定阈值重新分析。
--stdout/-S:指定输出barcode结果到文件,log信息到还是标准输出。
--stdlog/-L:指定log信息到文件,barcode结果还是到标准输出。
--log2stderr:指定log信息到标准错误输出,barcode结果还是到标准输出。
-v 0:关闭log信息的输出。

结果文件解释:
whitelist生成的结果文件包含四列:1、可接受的cell barcode;2、与可接受的barcode汉明距离相差1的barcode;3、第一列barcode的umi数;4、第3列barcode的umi数

结果文件格式如下:

AAAGATGAGAAACGAG AAAAATGAGAAACGAG,AAACATGAGAAACGAG,... 53122 4,6,...
AAAGCAAGTACCTACA AAAACAAGTACCTACA,AAACCAAGTACCTACA,... 36255 2,3,...
AACACGTCAGCGTAAG AAAACGTCAGCGTAAG,AACAAGTCAGCGTAAG,... 53133 4,11,...

2、提取barcode和过滤reads

extract命令会从fastq文件中提取包含可接受barcode的reads,默认情况下extract命令会忽略umi的reads质量情况而不做处理。示例代码如下:

umi_tools extract --bc-pattern=CCCCCCCCCCCCCCCCNNNNNNNNNN \
                  --stdin hgmm_100_R1.fastq.gz \
                  --stdout hgmm_100_R1_extracted.fastq.gz \
                  --read2-in hgmm_100_R2.fastq.gz \
                  --read2-out=hgmm_100_R2_extracted.fastq.gz \
                  --filter-cell-barcode \
                  --whitelist=whitelist.txt

常用参数解释:
--bc-pattern:指定cell barcode和umi的位置,同whilelist。
--stdin:指定输入文件或者标准输入,同whilelist。
--stdout:指定read1的输出文件。
--read2-in:指定read2的输入文件,即基因表达的原始reads文件。
--read2-out:指定read2的输出文件。
--read2-stdout:设置read2的输出到标准输出,同时不会生成提取后read1文件。
--filter-cell-barcode:指定只提取包含可接受barcoded的reads。
--error-correct-cell:指定提取包含与可接受barcode汉明距离相差1的barcode的reads。
--whitelist:barcode白名单文件。
--quality-filter-threshold=[FILTER]:设定通过阈值来过滤umi的read,低于阈值的umi会被丢弃。
--quality-filter-mask=[FILTER]:设置一个阈值来把umi reads中低于阈值的碱基替换为"N"。

3、比对
使用STAR软件来将reads比对到参考基因组。示例代码如下:

$ STAR --runThreadN 4 \
       --genomeDir hg38_noalt_junc85_99.dir \
       --readFilesIn hgmm_100_R2_extracted.fastq.gz \
       --readFilesCommand zcat \
       --outFilterMultimapNmax 1 \
       --outSAMtype BAM SortedByCoordinate

4、比对到基因
使用软件featureCounts确定每一条read比对到基因的位置,会生成一个新的包含每条read回帖到基因位置的bam文件,该软件来自于Subread软件包,下载时应选择版本大于1.5.3的,subread链接:https://sourceforge.net/projects/subread/files/subread-2.0.1/。示例代码如下:

$ featureCounts -a geneset.gtf -o gene_assigned -R BAM Aligned.sortedByCoord.out.bam -T 4

featureCounts生成的bam文件没有排序,需要用samtools排序并建索引方便后续使用。示例代码如下:

$ samtools sort Aligned.sortedByCoord.out.bam.featureCounts.bam -o assigned_sorted.bam
$ samtools index assigned_sorted.bam

5、分子计数
count命令来完成给每个细胞中的每个基因计数原始分子数。示例代码如下:

$ umi_tools count --per-gene --gene-tag=XT --assigned-status-tag=XS --per-cell -I assigned_sorted.bam -S counts.tsv.gz

常用参数解释:
--per-gene:指定给每个基因统计umi数。
--gene-tag=XT:指定基因标记。
--assigned-status-tag=XS:指定基因标记 。
--per-cell:指定给每个细胞统计umi数。
--skip-tags-regex:指定跳过的标记,默认值为^[__|Unassigned]。
--wide-format-cell-counts:设置输出结果的格式为宽矩阵,即行为基因,列为细胞。

默认结果格式如下:

$ zcat counts.tsv.gz | head
gene cell count
ENSG00000000003 AAAGATGAGAAACGAG 3
ENSG00000000003 AACTCTTGTTCTGAAC 4
ENSG00000000003 ACACCGGGTACGACCC 2
ENSG00000000003 ACACTGAGTCGGGTCT 5
ENSG00000000003 ACTATCTCAAGGTGTG 2

最后

今天就分享到这里,赶紧用起来吧!如果大家想系统学习也可以去官网看英文教程,附上官网链接:https://umi-tools.readthedocs.io/en/latest/index.html,方便大家去学习。各位看官们帮忙点赞再走吧!!!😉😉😉

上一篇下一篇

猜你喜欢

热点阅读