浅聊一下chip-seq
第一次接触chip,大家共同学习
在这里尽量用通俗的语言帮助大家理解原理和过程,以及具体到文章里图怎么看,数据怎么解读,如果有小伙伴后续想深入研究ChIP-Seq的话,还是建议去仔细阅读相关的文献。
ChIP指染色质免疫共沉淀技术(Chromatin Immunoprecipitation,ChIP),seq 指的是二代测序,那么ChIP-seq实际上也就是染色质免疫共沉淀+二代测序的一个过程。ChIP用来确定蛋白质与DNA相互作用情况,所以目前的ChIP-Seq 研究主要包括两大类应用——TF ChIP 和Histone ChIP:即转录因子chip和组蛋白的chip
先看转录因子的ChIP-seq:
有基础知识的同学知道转录因子(Transcription factor,TF)是能够结合在某基因上游5’端特异序列上的蛋白质,它作为反式作用因子,与真核基因的顺式作用元件比如启动子、增强子等发生特异性相互作用,从而激活或者抑制基因的转录。
所以我们看那些高分paper里做转录因子的ChIP-seq,主要就是用来确定靶蛋白也就是转录因子是否结合特定基因组区域(如启动子或其它DNA结合位点)。
另外,ChIP-seq还主要用于研究组蛋白修饰情况:
通过组蛋白特异性抗体,将带有特定修饰的组蛋白-DNA复合物沉淀下来,从而获取组蛋白结合的DNA,然后通过测序,可获得组蛋白在染色体上的分布情况,从而确定组蛋白修饰相关的特定位点,还可以确定组蛋白修饰酶类的靶标。组蛋白 Chip-seq一般与ATAC-seq、RNA-seq等一起联用
组蛋白N端有一段富含赖氨酸和精氨酸的“尾巴”,尾巴上的氨基酸可以被修饰酶催化添加各种修饰基团,如磷酸化、甲基化、乙酰化和泛素化等等,这个过程就称为组蛋白修饰。在表观遗传中,组蛋白修饰对基因表达的调控非常非常重要,最常见的组蛋白修饰就是甲基化和乙酰化****:
组蛋白乙酰化与染色质的开放和转录激活相关;所以一些文章会研究组蛋白乙酰化从而判定转录激活,也就是起增强子的作用
▲组蛋白甲基化修饰有不同的修饰类型和氨基酸,既可以激活转录(如H3K4me3、H3K36me3、H3K79me3等),也可以抑制转录(如H3K9me3、H3K27me3等)。有四种组蛋白,H2A、H2B、H3、H4,H是指组蛋白位点,K是指赖氨酸位点,me是指甲基化修饰个数,ac是乙酰化修饰。
1、确定转录因子在整个基因组上的结合位点,富集的信息进一步分析转录因子的结合motif、作用通路等
2、确定组蛋白修饰情况,检查不同组蛋白之间结合相同的基因在转录起始位点上的位置,这样可以看出缺少某一类组蛋白之后,基因是否表达,验证这个组蛋白具有的功能和意义
3、比较组蛋白亚基之间在基因组上结合的基因的包含关系
4、利用ChIP-seq也可以得到核小体定位图谱
5、 ChIP-seq也可研究DNA甲基化情况
将你的样品送公司测序
这样测序得到的 DNA 片段匹配映射到参考基因组,这些DNA片段其实是随机的,靶蛋白结合的片段越多,测序获得的数据就越多,那么在该位置检测到 DNA 片段堆叠就会越高,反之如果没有蛋白结合,在该位置就会几乎没有DNA 片段堆叠,这些DNA片段堆叠叫做峰 (Peak)。下图中红色和蓝色的箭头代表在基因组中mapping的正负链,最后对两个peak进行merge之后,就会得到最终的peak,然后就会得到我们在文章里最常见的一种ChIP-seq峰图,y轴是映射上去的片段拷贝数,代表ChIP-seq的信号强度,x轴就是基因组坐标
1.png而在最后的分析里,由于峰值会有背景噪音以及文库会夹杂一些没有用抗体捕获的DNA片段也被测序了,所以要通过前期实验尽可能提高峰质量,也就是我们在前面提到的空白对照(control),用来排除假阳性:
这样一来,就可以大大提高峰的质量
但是ChIP-seq也存在一定局限性,很多原因都会影响ChIPseq测序结果:
比如免疫共沉淀中抗体的特异性、细胞类型、起始样本量;再比如测序深度:对于转录因子最小5-10M,对于组蛋白修饰宽谱图则更高,标准为20-40M,随着测序深度增加,组蛋白修饰检测比例也会增加,最后达到平稳,测序深度饱和点取决于组蛋白修饰和所研究的物种基因组。
对公司送来的数据如何处理得到我们需要的结果
大体上的分析分为下面的四步
一、测序数据质量控制
二、序列比对
三、Peak calling
四、Peak annotation与可视化
2.png一、测序数据质量控制
拿到数据之后用FastQC检查测序质量,这样就可以在后面序列比对的时候把质量差的碱基在设置参数时给去掉。
二、序列比对
比对的目的就是“推本溯源”,把我们的reads比对到参考基因组上,利用Bowtie2或这BWA看看我们过滤后的reads能匹配到基因组的什么位置。测序reads和基因组之间并非完全match上,中间会存在几个mismatch,有可能是因为测序错误,也有可能是存在变异位点。
三、Peak calling
Peak calling用MACS寻找基因组中大量短读片段富集的区域。实际上表观组学的数据都会用到Peak calling这个概念,都是抓取特定区域的DNA片段,通过测序定量地看这些区域的reads数量,得到Peak 在基因组上的位置信息、peak富集信息等等
也就是在上面解释过的:测序得到的 DNA 片段匹配映射到参考基因组,这些DNA片段其实是随机的,靶蛋白结合的片段越多,测序获得的数据就越多,那么在该位置检测到 DNA 片段堆叠就会越高,反之如果没有蛋白结合,在该位置就会几乎没有DNA 片段堆叠,将这些DNA片段堆叠用柱状图画出来,就会得到文章里出现的峰图 (Peak):
其实峰图就是柱状图而来
3.png横向代表基因组坐标, 纵向代表ChIP-seq的信号强度, 大家在文章中可能看到过有的峰图不只是向上的,还有向下的,水平线上方的峰代表正方向的,下方的代表互补链,有的一上一下有些错位, 是测序造成的。
值得一提的是,转录因子的结合和组蛋白修饰,二者的峰形差异很明显:转录因子结合的特征峰,峰型高,而且窄;而组蛋白修饰结合的特征峰,峰型起伏,而且宽:
上面的这些区分也可以作为简单区分
四、Peak annotation与可视化
包括基因组注释、GO分析、Pathway 分析、motif 查找等等,目前有的用Y叔的ChIPseeker,有的人用deeptool软件,还是比较推荐用ChIPseeker。
所谓Peak注释,就是得到了靶蛋白在基因组区域的结合峰位置后,对峰位置进行注释。注释有两类,genomic annotation和nearest gene annotation:
genomic annotation是看peak在基因组的位置,在各种基因组区域(基因上下游,5,3端UTR,启动子,内含子区)分布情况,比如文章中的此类图:
4.png而nearest gene annotation是peak相对于转录起始位点(TSS)的距离,不管这个peak是落在内含子或者别的什么位置上,都能够找到一个离它最近的基因(即使它可能非常远),这种主要是应用于基因表达调控,因为启动子区域是重点,所以离TSS最近的基因更有可能被调控,所以这些peak区域附近的基因就作为其候选的调控基因。
而目前启动子区域没有明确定义,在基因内部或距离TSS 2.5kb的peak被认为是靶基因,所以我们在文章中经常可以看到统计reads 在TSS 2.5 kb以内富集强度的分析图:****峰图(左)和热图(右)
5.png另外,我们在文章里还可以看到可能会对靶蛋白的亚基以及其他蛋白分别做了ChIP-Seq,然后画了很多韦恩图看不同蛋白的靶基因的相互关系,多个ChIP-Seq结果关联,用于计算ChIP-Seq表达谱和全ChIP-Seq覆盖度,在文章里就会看到下面这样的结果图:
6.png将前面分析得到的Peak注释基因,还可以进行后续富集分析包括GO分析、KEGG分析等,落脚到基因的功能上来,那么在文章里你就会看到这样的图:
[
7.png
还有一种结果图,我们在做ChIP-seq的文章里也经常看到,就是转录因子结合序列的logo图:
这种图是如何来的呢?
要知道,与转录因子结合的DNA序列位点被称为转录因子结合位点(TFBS),表现出一定的序列变异性,以JASPAR这个数据库为例,JASPAR是转录因子结合位点信息数据库,以position frequency matrices (PFMs) 和TF flexible models(TFFMs)的形式记录了转录因子的DNA结合偏好信息,这些信息可以转换为位置权重矩阵。
而我们通过ChIP-seq,对 Peak 区域鉴定 motif 序列,在序列片段的每个位置上,得到不同碱基的数量,形成一个矩阵,将得到的 motif 序列与 JASPAR 数据库进行比对,根据碱基数量权重,形成这样的logo图,字母越大的,说明这个位置是这个碱基的可能性更大,从而鉴定出靶蛋白binding的 motif。
9.png基本上这就是ChIP-seq的全部流程
参考文献
[1] Luizon M R , Ahituv N . Uncovering drug-responsive regulatory elements[J]. Pharmacogenomics, 2015, 16(16):1829-1841.
[2] Rn A , Ts B . Methods for ChIP-seq analysis: A practical workflow and advanced applications[J]. Methods, 2020.
[3] Mundade R , Ozer H G , Wei H , et al. Role of ChIP-seq in the discovery of transcription factor binding sites, differential gene regulation mechanism, epigenetic marks and beyond[J]. Cell Cycle.