SNARE-seq:RNA-seq和ATAC-seq合体
High-throughput sequencing of the transcriptome and chromatin accessibility in the same cell
概述
怎么在同一个细胞里实现转录组测序和开放染色质分析?
直接通过转录组的结果并不能得到TF上游开放染色质的信息,也就是说,要构建一个完整的调控网络,RNA-seq和ATAC-seq往往是需要结合分析的。虽然已经有很多算法可以实现多组学数据整合,但很难评估这些算法的表现到底如何,难以完全保留真实生物学信息。这里作者开发了一类新的高通量技术:SNARE-seq,全称droplet-based single-nucleus chromatin accessibility and mRNA expression sequencing,可以实现在同一个细胞里进行RNA测序(RNA-Seq)和染色质可及性(ATAC-Seq)测序,并关联二者结果得到细胞基因表达调控的详细信息。技术使用了Tn5 transposase对通透性细胞核进行处理,通过巧妙设计DNA barcode接头,在同一个droplet中可以实现mRNA sequencing和DNA sequencing。应用该技术,作者成功将启动子的动态可及性与转录水平关联起来构建了神经发育图谱。
技术策略
作者应用了splint oligonucleotide,把这种序列作为Tn5的接头序列进行anneal,这种序列的特点是可以和polyA的beads进行互补配对,所以beads上只有有polydT,就可以同时捕获经Tn5片段化的DNA序列和核内的mRNA序列。
SNARE_lib.jpgPerformance
评估SNARE捕获可及性图谱:用到了GM12878细胞系,是一种经典的有特异染色质谱的人B淋巴细胞。比较SNARE和以前的omni-ATAC、ATAC-seq技术的效果,具有高度相似性
SNARE-omni-atac.jpg同时该技术的片段分布也展示了ATAC实验典型的“周期性核小体片段”和较好的tss信号、FRiP值也满足基本ATAC-seq要求(基本>0.3):
SNARE_GM12878.jpg评估SNARE对不同细胞类型的鉴定能力:选择混合样本
we performed SNARE-seq on mixtures of cultured human BJ, H1, K562 and GM12878 cells and collected 1,047 paired profiles (median of 500 unique molecular identifiers (UMIs); median of 805 accessible sites
用SNARE的RNA-seq表达数据(SNARE-seq expression assay)和可及性数据(SNARE-seq accessibility assay)分别做细胞聚类,发现二者的profile有很好的一致性:那些在特定淋巴细胞中高表达的marker gene同样也具有对应的开放染色质谱(高表达的TF有可及的motif)。
SNARE_cellType.jpg同样,作者也将SNARE-seq的表达和可及性图谱和snDrop-seq以及单独的SNARE-
seq chromatin-only experiments进行比较,发现聚类结果都是高度一致的。作者还检验了doublets rate和recovery rate等指标。
另外正式的SNARE实验数据,作者不忘和公共数据库ENCODE进行了比较
We compared aggregated SNARE-seq chromatin accessibility profiles with published bulk ATAC-seq ENCODE data on neonatal mouse brain cortex and found a strong concordance between these two methods
综上,SNARE-Seq的表现是可靠的。
聚类技巧
我们知道单细胞ATAC是稀疏数据,不能直接peaks calling,需要通过聚类合并cluster以后对cluster的bulk进行peaks calling。聚类方法和策略有很多种,作者尝试了三种:
SNARE_clustering.jpg第一种是先利用转录组数据进行聚类,聚类后的cluster的染色质数据合并进行peaks calling,细胞的标记和基于转录组的数据一样;第二种是和第一种一样基于转录组数据的cluster作合并,再peaks calling,但是细胞的标记是基于独立的clustering结果,这个clustering是用cisTopic做的(cells are labeled with results of independent clustering with each cell’s Principal Component scores
of topic information calculated by cisTopic)。第三种是没有利用任何转录组信息(进行peaks合并,而是其他aggregate方法),用普通的scATAC分析流程做的聚类(也是用cisTopic标记cluster)
作者发现,单独的染色质信息(仅按照scATAC一般的分析流程),不能像SNARE基于转录组先验信息的染色质分析那样捕获rare peaks(如第二张图);而且在第三张图中可以看到细胞之间的界限很模糊,罕见细胞类型被掩盖。
因此基于转录组先验知识的染色质图谱聚类将相比单独的scATAC能发现更多的rare cell type,捕获更多有用的生物学信息。
Downstream analysis
作者对鼠大脑皮层细胞做SNARE测序,一共鉴定了35,166 个差异可及性位点,对这些位点进行注释,其中有2,835 (8%)落在启动子区,且其中有128个同样有差异基因表达。
为了进一步探索这些差异peaks,作者做了GO富集分析和motif分析,分别应用GREAT和HOMER。
SNARE_GO_motif.jpg分别应用expression assay和accessibility assay的数据进行拟时分析,二者也有很高的相关性:
SNARE_pseudotime.jpg结论:
Thus, SNARE-seq provided linked expression and chromatin accessibility profiles that enabled construction of regulatory dynamics during developmental programs, as well as detailed characterization of epigenetic state for the cell clusters
Overall
SNARe-seq是一个很有应用前景的探索基因转录调控“input”和"output"的工具,将有助于构建人类组织和临床样本调控图谱
就我的个人观点,SNARE-seq实际上测序的mRNA基本上都是核内新生的mRNA,注释的时候大量mRNA对应的reads是mapping到intron上的,相对而言有效的exon的数据量就减少了,而且应该很难探测到mRNA可变剪接转录本的信息,不过该技术能在单细胞水平同时实现两个组学测序(实际上以前还有三组学测序的),能做到这样的精度和可靠性数据非常不错了。