2020 scATAC-seq Harward Liu
了解scATAC-seq 背景知识(youtube Shirley)
image.png image.png1.2020 STAT115 Lect16.1 Intro to Single-Cell ATAC-seq
- 我们通过Tn5 酶进行反应,切割开放染色质区域,同时我们选择相对短的片段进行建库测序。当我们比对到基因组就会看到peak 峰,标示出染色质所有的开放染色质区域.也是所有转录因子结合区域
- atac-seq,相比其他技术需要更少的起始细胞量,大约几千个有时候几百个细胞手动了解scATAC-seq技术,人们可以用于研究发育组织及其癌症组织,这些情况有时候用ChIP-seq 或者Dnase-seq没法研究.
-
近些年技术进一步发展. 单细胞ATAC-seq实验方法已经开发出来了. 斯坦福大学研究团队与10x genomic 进行合作,拖动scATAC-seq 商业化.
-
10x 商业平台原理,首先纸杯GEL breds ,获取单细胞悬液,或者单个的细胞核,并用Tn5 进行酶切. 进入机器形成1个gel beads 1个单细胞液滴. 每一个细胞拥有一个标签.同时进行短的片段进行PCR扩增反应. 最后去除油滴,所有的序列混合在一起,进行上机测序,用barcode 来区分reads来自哪个细胞.
提问:在上机之前,就进行了Tn5 反应,将adapter 插入两端.
- 刚刚我们讲述Droplet-based 系统的单细胞技术.其他技术包括Plate 或者array : 大约有384 个well.每一个细胞有唯一的标签. 另一个技术是split-pool 和单细胞RNA-seq 技术类似,进行两次的标签化组合,进行标示所有的细胞. 但是也存在问题,多次的操作细胞可能会丢失,也逐渐商业化目前最主流是x genomic ,得到较好的质量
-
更多人希望得到scRNA-seq+ scATAC-seq 数据.目前也存在困难.可以先对细胞分成两管,分别进行scRNA_seq和scATAC-seq. 虽然来自同一个组织,但是不是同一个细胞. 所有scRNA-seq 和scATAC-seq 的barcode 不是一对一匹配.
-
10x 公司正在为之努力,单细胞细胞测量RNA-seq和ATC-seq,使得两者的barcode 有一个一一对应的关系.
提问:短的片段更容易得到扩增.
image.png2.STATi15 Lect16.2 Preprocessing and QC scATAC-seq
-
Cell Ranger 是10 x genomic 开放的工具包. 它有自己的比对方法,当然目前也有很好的其他工具,比如RNA_seq z中STAR, 可以使用STAR solo (STAR 基础上进行提升) 比对速度提升10倍.
-
ATAC-seq 可以使用BWA进行比对. 最近有团队开发了Minimap2 ,和cellRange 快15 倍. 对于CHIP-seq 来说,不太关注高度重复的区域,当你发现这个区域没有read,不要担心,我们忽略了它.
-
10x 公司知道他们的barcode 数目及其信息,我们需要保证传染性结果的barcode没有测错. 如何你发现你的barcode 序列和所有的都不一样,但是和有一个很相近,你可以将这些reads 分配给这个细胞.所有这是一个标准的预处理过程.
- 人们会将所有的reads 进行合并,用macs2 进行call peak. 结果和bulk 几乎一样. 图C 中 每一个细胞都是一行,每一个位置有1 or 2 reads.
-
图d, 两类细胞GM12878(人类),A20(小鼠)将不同重复进行normalize ,比较两者相关系数. 每一个点就是peak.
-
图e 左,将两个物种read 结果混合起来,用来检测一个barcode 多少比例存在多个细胞,我们可以看到有几个点在对称轴上.
-
图e 右,显示细胞浓度与一个barcode 对应多个细胞的比例,可以看到细胞浓度越高,这种情况越明显.
-
启动子区域很大程度都是开放的,所有查看多少比例比对到启动子可以反映出实验效果.
也可以检测多少reads 比对到线粒体,当然比例很高不太好. 图b 左边两图 ,横坐标是细胞测到的reads 数目,总坐标是多少比例比对到TSS区域.(1kb 区域).
-
图b 右图展示类似效果,x 为通过标准的reads,y 轴是Frip比例. 也可以设定阈值进行过滤细胞
我们通过Frip 0.25 / reads count> 10^3 进行过滤,将剩下的蓝色细胞进行macs2 call peak 应该更好.
- 当过滤掉大部分低质量细胞,进行macs2 callpeak. 我们可以通过统计每个peak 区域的reads 数目得到peak-count matrix, 非常稀疏.大多是count 情况 都是0,1 偶尔出现2 ,这和单细胞RNA-seq不太一样。 有时候我们可以将2转换成1 ,因为2 非常少,
转换成binary matrix
.
提问
:为什么count 数目只能是0,1,2 ?
总体read 有成千上万个reads,平均到每一个细胞,只有几千个reads .DNA序列大多数只有2倍拷贝, 对于癌症细胞来说,可能存在很少的3,4 拷贝。
3.2020 STAT115 Lect16.3 Analysis of scATAC-seq
当我们得到peak_by_cell matrix. 需要进行下游分析.
2020年5月25日17:17:31
- 我们可以使用PCA进行降维, 或者新的机器学习算法,LSL可能效果比PCA好一些. 降维只有可以计算两个细胞之间的距离.(LSI 思路:TF-IDF -->term-document-->SVD-->demension accor)
- 降维后坐标可以直接用scRNA_seq的方法,进行聚类(cluster--Seurat V3)
- T-SNE/uMAP 可视化
- 我们可以想象原始矩阵是非常稀疏,成千上万行peak 区域. 只有几千行有数据(0 或者1 ) .
- 我们将细胞进行聚类,可以将每一类细胞重新进行call peaks.
- 比如cluster16 ,是一个小的cluster, 可能cluster16 部分的peak 由于agg atac-seq 时候reads 很少,无法进行检测到。当我们单独进行cluster16 macs2 call peak 更加容易发现它.
下面两个slide 将从motif/TF ChIP-seq 数据检测那个TF明显富集某个细胞.
接下来,我们就需要进行差异peak. (tips: 需要将细胞reads 进行归一化,10k/cell) 再进行M-W test(几万次)
- scRNA-seq 方法,M-W test /Wilcoxon rank-sum等等.
- 但是scATAC-seq 大多数情况都是0,1. 需要将每一列(细胞) 进行normalize . 放缩到10k (reads/cell) . 我们前面已经将reads 数目很少的细胞进行了过滤。 归一化后,可以进行比较每一行是否是差异基因.
- Presto : 是Wilcoxon test 的改进,但是速度快很多.
scRNA-seq 判断不同cluster每一个gene 显著性. scATAC-seq判断不同的cluster每一个peak 显著性.一般需要6小时的,Presto 只需要15 秒就完成.
image.png- ChromVar 是很早一个算法,哪些TF特异富集到某个cell/cluster。
tips: 类似计算GO富集一样,进行超几何计算,看这个细胞的peak里面对于某个TF的富集情况.ChromVar 对所有的TF进行类似操作
比如CEBPA 在某些cluster 检测到很多位点,在其他一些cluster 很少检测到. 对每一个细胞的开放区域进行TF (CEBPA)富集分析,就可以得到如图所示结果. 一样的,可以看ZEB1 转录因子在每一个细胞中富集情况.
当然在人类基因组中通过motif 预测TF结合还存在很多影响因素. 所有通过证实的转录因子数据效果更好.
image.png用TF ChIP-seq peak 和单细胞peak区域进行overlap 来衡量
- 我们可以利用另一个项目,cistrome数据. 收集了60000 ChIP-seq(human/mouse) .
1.假如研究某一个基因,检测哪一个转录因子调控这个基因. 结果会给出哪些TF 更可能结合在这里.
2.想研究一个区间哪些转录因子结合(比如说SNP发生位点)
3.对很多区间,用已有的ChIP-seq 数据,检测哪些转录因子ChIP-seq 更加和这些区域重叠。比之前直接用motif 进行富集更加有效.
- 可以用差异peak 区域进行富集,看哪些TF-ChIP-seq更加重叠. 一个TF有很多数据(比如不同组织的ChIP-seq),图里面出现很多颜色相同的点.按照每一个TF最佳重叠得分进行排序. 所有看到PLAS1 中有一个ChIP-seq 数据和输入区间有很高的的重叠.
- 同时同一个
转录因子家族
,可能结合区域很相近,比如FOXA1 ,FOXA2 .
image.png4.2020 STAT115 Lect16.4 Integrating scATAC-seq with scRNA-seq
几十万行的peak-cell matrix 转换成2万行 gene-cell matrix;MAESTRO采用基于距离的算法对peak 加上权重,越靠近乘以1,越远(100kb)乘以很小的值 来表示此基因是否表达
- 一个基因附近可能有很多atac-seq peak ,每一个peak计算距离TSS 距离,赋予不同的权重 进而转换成gene-cell-countmatrix ,比如MAESTRO (未发表)
- 将peak-cell 矩阵转换成gene-cell 表达矩阵后,类似于scRNA-seq结果. 相当于将一个细胞,分别进行了scRNA-seq,scATAC-seq.
左图两种颜色分别表示scRNA-seq,scATAC-seq.
这部分不太懂
,大概说scATAC-seq 转换成的gene_cell_matrix和scRNA-seq matrix 相关系数类似. 不像scRNA-seq 重复之间那么高。
image.png
image.png
岭回归和lasso回归
可以进行特征选择,我们在生物统计学课程了解到
可以获得几千个差异基因,需要用lasso进一步对gene 添加权重
- 通过LASSO选择这些差异基因,和那些信号关系更大。比如已经发表的H3K27ac peak 或者DNase peak .
反思:
水平有限,好多slide 没听懂讲什么内容 φ(* ̄0 ̄)