单细胞测序生信单细胞

单细胞ATAC概述

2021-07-25  本文已影响0人  生信阿拉丁

作者:Jenny
审稿:童蒙
编辑:angelica

近几年来,单细胞测序技术一直是讨论热度极其高的话题,除了单细胞转录组,单细胞ATAC也逐渐引起科研人员的兴趣。那么,它与我们熟知的单细胞转录组又有什么相同和不同之处呢?单细胞ATAC基础分析软件、亚群分析、motif&拟时间等高级分析与单细胞转录组又有哪些异同点?在这里,今天这篇分享主要是给大家介绍下单细胞ATAC的基本知识点,后续也会给大家带来更多关于单细胞ATAC生信分析的内容,尽请期待。

什么是单细胞ATAC?

第一个单细胞ATAC数据是2015年由Greenleaf(Buenrostro, Wu et al. 2015)和Shendure(Cusanovich, Daza et al. 2015)实验室的分别发布Nature和Science期刊上,他们通过修改ATAC-seq protocal获取了几百~上万个细胞。其中Greenleaf实验室Nature文章中是依赖物理隔离单细胞(右图),而Shendure实验室避免了单细胞反应体积使用两步组合索引策略(左图)(Pott and Lieb 2015)。


图1:单细胞ATAC测序技术(Pott and Lieb 2015)

简单来说,单细胞ATAC是单细胞技术和传统ATAC-seq的结合体。我们知道,ATAC-seq(Assay for Transposase-Accessible Chromatin with highthroughput sequencing)是一种利用转座酶(改造后Tn5转座酶)来研究全基因组范围内染色质开放性的方法,而基于2018年大火的10x Genomics ChromiumTM平台的Single Cell ATAC产品同样也是利用乳状液凝胶珠GEM来获取单细胞的。

从这里我们可以看出,单细胞ATAC和单细胞转录组的实验建库有一个很明显的差异,那就是,单细胞转录组是必须要活体细胞,且是提取细胞胞质里的RNA序列,而单细胞ATAC是提取核内DNA,对细胞的状态要求较低。

为什么要进行单细胞ATAC研究?

细胞是生命活动的基本单位,而要弄清楚真核生物的基础机制,只查看基因的表达水平是往往不够的。有研究表明,人类全基因组70%的范围可以发生转录(像lncRNA、small RNA、eRNA等),而单细胞转录组更多是检测基因coding区域,这一区域占比不到5%。此外真核生物中还存在大量的顺式调控元件,在细胞发育过程中,远端的非编码区域的表观状态往往比基因表达水平的变化要大得多,而单细胞ATAC技术就是实现这一目标的可靠手段之一。


图2:单细胞ATAC揭示候选调控区域(Minnoye, Marinov et al. 2021)

我们可以简单总结单细胞ATAC的特点:

如何要进行单细胞ATAC研究?

如今,比较流行的是10x Genome单细胞平台,目前官方已推出2款关于单细胞ATAC的产品,一个是Single Cell ATAC;另一个是去年刚推出的Single Cell Multiome ATAC + Gene Expression 。
后者是可以同时检测同一个细胞的ATAC信号和转录组水平(核内RNA)。此外10x也配套发布了相应的cellrange分析软件,分别是Cell Ranger ATAC和Cell Ranger ARC。


图3:10x Genome单细胞ATAC产品

单细胞ATAC基础数据?

01 单细胞ATAC基础数据介绍

单细胞ATAC跟单细胞转录组在数据格式类型上有比较明显的区别,不像单细胞转录组,经过cellranger分析后只需要基因表达矩阵就行。单细胞ATAC的基础依赖数据是每个样本有一个fragments.tsv文件(已经去掉duplicates),每一行代表一个unique read(fragment),并且有对应细胞barcode信息。我们可以利用这个文件得到peaks矩阵信息,但是fragments.tsv文件我们后期还是会用到(比如画track图等)。


图4:单细胞ATAC基础matrix处理流程(Chen, Lareau et al. 2019)

02 单细胞ATAC基础数据获取

接下来,我们以10x Genome的Single Cell ATAC数据为例,说明如何从原始fastq文件得到下游单细胞ATAC的基础数据信息。
Cell Ranger ATAC是由10xGenomics官网提供的一组分析、处理,单细胞ATAC数据的流程软件。Cell Ranger ATAC主要包括四个与单细胞染色质可及性分析相关的pipeline: mkref(建库)、count(数据分析)、aggr和reanalyze。目前官方cellranger-atac已更新到1.2.0版本。


参考官方pipeline教程:https://support.10xgenomics.com/single-cell-atac/software/pipelines/
运行cellranger-atac count命令,便可获取我们的基础文件。以下是下游分析需要用到的重要文件列表。

有时候我们会做多个样本多个组的单细胞数据,而一些软件,比如Signac是要依赖peaks matrix作为输入文件的,这时候我们可以用cellranger-atac aggr共同call 多个样本的peaks matrix。

以下是cellranger-atac count/ aggr具体命令:

#单个样本,多个制备文库
cellranger-atac count --id=sample_name --fastqs=QC/clean/sample_name --sample s1,s2,s3,s4 --reference=10xATAC_genome --localcores=20 --localmem=60 --dim-reduce=lsa
#多个样本,共同call peaks,因计算量大且运行时间长,不建议做下游分析(nosecondary)
cellranger-atac aggr --nosecondary --id=Rice --csv=test_aggr.csv --normalize=depth --reference=10xATAC_genome

以下是后续做亚群分析要用到的test_aggr.csv基础文件列表,包含以下具体信息:

假设网上下载的数据,没有*gz.tbi index文件或者是需要根据genomeAnnotation,geneAnnotation对象修改一致的Chr等命名,可以按照以下方式修改fragments重新生成tabix index。

#必须用bgzip,不能用gzip
bgzip -c fragments.tsv > fragments.tsv.gz
#生成tabix index
tabix -0 -p bed fragments.tsv.gz

今天关于单细胞ATAC的基础知识点介绍就到这里。获得了基础数据后,那么接下来就是做亚群分析了。
下次,我会继续给大家带来比较详细的有关单细胞ATAC生信的分析内容了。不要走开喔~

参考资料

上一篇 下一篇

猜你喜欢

热点阅读