漫漫生信学习路scATAC-seq单细胞测序技术

单细胞笔记3-scATAC-seq介绍

2021-05-25  本文已影响0人  江湾青年

ATAC-seq

ATAC-seq(Assay for Transposase-Accessible Chromatin with highthroughput sequencing)是利用转座酶研究染色质可及性的高通量测序技术。


染色质可及性

首先介绍一下什么是染色质可及性。正常情况下,DNA与核小体缠绕折叠在一起形成染色质,但是DNA的复制、转录都需要将染色体的高级结构解开,然而解开并不需要打开全部染色体,只需要打开表达基因的区域,这部分打开的染色质,就叫开放染色质(open chromatin)。而染色质一旦打开,就允许一些调控蛋白(比如转录因子和辅因子)跑过来与之相结合。而染色质的这种特性,就叫做染色质的可及性(chromatin accessibility)。


ATAC-seq原理

DNA转座,是一种把DNA序列从染色体的一个区域搬运到另外一个区域的现象,由DNA转座酶来实现。这种转座插入DNA,需要插入位点的染色质是开放的,因此,如下图A,我们只要人为地将携带已知DNA序列标签的转座复合物(即带着红色蓝色测序标签的转座酶Tn5)加入到细胞核中,这样他就会插入到开放的染色质区域,再利用已知序列的标签进行PCR后测序,就知道哪些区域是开放染色质了,这也就是ATAC-seq的原理。最后得到的DNA片段,包括了开放区域的剪切片段,也包括了横跨一个或多个核小体的长片段。

ATAC-seq示意图

根据片段长度,可以将片段分为分为Fragments in nucleosome-free regions(<147 base pairs)(不包含核小体的片段)、Fragments flanking a single nucleosome (147~294 base pairs)(包含一个核小体的片段), 以及更长的多核片段。片段长度分布如下图,不包含核小体的片段最多,其次是单核片段,依次递减。

ATAC-seq片段分布图

ATAC-seq出来的结果,和传统方法出来的结果具有很强的一致性,同时也和基于组蛋白修饰marker的ChIP-seq有较高的吻合程度。也就是说,ATAC-seq中的peak,往往是启动子、增强子序列,以及一些反式调控因子结合的位点。


scATAC-seq建库原理

ATAC-seq是把所有实验细胞看作了一个整体,获得所有细胞混合的基因信息。scATAC-seq是在ATAC-seq的基础上,进行细胞核的分选和标记通过barcode识别细胞核,解决了不同细胞群体的异质性的问题,能够检测出混杂样品测序所无法得到的异质性信息。

以10x 建库方法为例,比较scATAC-seq 和scRNA-seq建库方法的异同

二者都用胶珠(GEMs)的方法,不一样的是ATAC胶珠上的序列中不用UMI,因为基因组只有一对序列,无需像RNA一样定量。另外序列末端用接头引物Read 1N代替PolyT。

scRNA-seq通过结合cDNA的PolyA尾进行扩增,而scATAC-seq的DNA片段没有PolyA尾,取而代之的是Tn5酶转座剪切时插入的adaptors片段,可以与胶珠上的Read 1N序列互补。

DNA片段接上胶珠后,在另一端加Read2和Sample index序列。在此之前,scRNA-seq需要将cDNA酶切至合适的片段长度,而scATAC-seq的片段不进行打碎,接上Sample index和P7序列后进行扩增。

最后上机测序。scRNAseq如果是3‘单端测序,Read2读取最近的100bp读长,而Read1只读取16bp的细胞barcode序列和10bp的UMI序列,共26bp。scATAC-seq则用双末端测序,读长一般不低于45bp。

scATAC-seq最后可以得到4个原始文件:

其中I1/2分别是barcode和sample index,R1/2是目的片段的双末端。


下游分析(以Signac为例)

Signac包由Seurat同一团队开发,独立于Seurat包,在2020年8月开始发布在GitHub上。目前仍是1.0.0版本。

1. 加载peaks, 细胞注释和片段分布数据,并创建object。这个object和Seurat object类似,只是在assay里多了peaks等信息。这里的features不是基因,而是基因组的注释区域,如启动子,增强子等。

2. 质控

3. 降维聚类

4. 创建基因活性矩阵。之前的聚类区域所用的features是peaks,为了展示不同分群基因活性的差异,首先要将scATAC-seq数据产生的peak matrix转换整合成一个gene activity matrix(基因活性矩阵)。我们基于这样一个简单的假设:基因的表达活性可以简单的通过基因上下游2kb范围内覆盖的reads数的加和进行定量,最后获得一个gene * cell的表达矩阵

5. 与scRNA-seq数据的整合分析

6. 寻找细胞分群特异的peaks

7. 展示基因在不同细胞类型的开放程度

8. 此外还有其他分析,如TF footprinting等。footprinting顾名思义是指转录因子留下的印记,由于Tn5酶不能剪切到TF结合的区域,所以footprinting图相对与TSS图,中间有“凹陷”,凹陷的程度根据TF结合的时间确定


参考

http://www.novelbio.com/blog/c2/50.html

https://blog.csdn.net/qazplm12_3/article/details/108765399

上一篇下一篇

猜你喜欢

热点阅读