学习

易基因|染色质免疫共沉淀测序(ChIP-seq)分析实验全流程

2022-07-14  本文已影响0人  表观遗传学爱好者

染色质免疫共沉淀测序(ChIP-seq)实验怎么做?

从技术原理、建库测序流程、信息分析流程和实验成功的关键问题等四方面详细介绍。

一、染色质免疫共沉淀测序(ChIP-seq)技术原理

蛋白质与DNA相互识别是基因转录调控的关键,也是启动基因转录的前提。ChIP技术是在全基因组范围内检测DNA与蛋白质体内相互作用的一种标准方法[1],该技术由Orlando等[2]于1997年创立,最初用于组蛋白修饰的研究,后来被广泛应用到转录因子作用位点的研究中[3]。

染色质免疫共沉淀-高通量测序(ChIP-Seq):是指通过染色质免疫共沉淀技术(ChIP)特异性地富集与目的蛋白结合的DNA片段,并对其进行纯化和文库构建;然后对富集得到的DNA片段进行高通量测序,是目前在全基因组水平研究蛋白结合靶DNA序列的重要手段,为转录因子、组蛋白修饰、核小体定位等表观遗传学的研究提供有效方法。

二、染色质免疫共沉淀测序(ChIP-seq)技术流程

图1:ChIP-seq技术流程示意图


三、染色质免疫共沉淀(ChIP-seq)信息分析流程

图2:ChIP-seq信息分析流程示意图


(一)原始下机数据质控

原始下机数据为FASTQ格式,是高通量测序的标准格式。FASTQ文件每四行为一个单位,包含一条测序序列(read)的信息。该单位第一行为read的ID,一般以@符号开头;第二行为测序的序列,也就是read的序列;第三行一般是一个+号,或者与第一行的信息相同;第四行是碱基质量值,是对第二行序列的碱基的准确性的描述,一个碱基会对应一个碱基质量值,所以这一行和第二行的长度相同。以下为一条read信息的示例:

图3: FASTQ格式示例

原始下机数据包含建库时引进的接头序列以及质量过低的碱基,这些因素会导致后续比对到基因组的reads较少,从而导致得到的信息较少,因此需要进行过滤。

(二)数据比对

过滤后的数据需要比对至参考基因组,基因组上与目标蛋白结合的DNA片段会有大量reads比对上去,从而形成“峰”(peak),根据峰的位置即可判断基因组的哪些区域与目标蛋白进行列结合。

如比对采用bowtie2,该软件可快速将短序列比对至参考基因组。比对完成后,对结果文件进行以下过滤:

(1)去除duplication。由于PCR过度扩增,会导致同一个模板DNA在文库中出现多次,因此可能被多次测到,这种片段称为duplication。这些片段的存在不仅不会增加有用信息量,反而会导致后续统计产生偏差,因此需要去除。

(2)去除多重比对reads。多重比对reads指比对至基因组多于一个位置的reads,这些reads的存在可能影响统计结果的准确性。

(3)去除MAPQ<30的reads。MAPQ表示该read的比对质量,其计算方法为:

Q = -10log10p,其中p为该read比对错误的概率。MAPQ值越高,表示该read比对的正确率越高。

(三)组蛋白修饰/蛋白结合位点的鉴定及统计

ChIP-seq将DNA上的组蛋白修饰/蛋白结合区域富集后进行测序,因此组蛋白修饰/蛋白结合区域,IP文库所覆盖的reads数会显著高于Input文库,从而形成“峰(peak)”。检测这些峰的位置即可得到DNA上组蛋白修饰/蛋白结合的区域(peak)。如采用软件MACS2[4]检测峰。 

鉴定得到peak后,再利用R包ChIPseeker[5]对得到的peak进行注释、分布统计。再利用R包clusterprofiler[6]对注释基因进行GO[7]富集分析,利用KEGG等数据库进行pathway富集分析。

(四)差异组蛋白修饰/蛋白结合位点的鉴定及统计

鉴定差异组蛋白修饰/蛋白结合位点也就是鉴定差异peak。如利用MACS2的bdgdiff鉴定差异peak。该软件根据一定的规则将两样本(无生物学重复)的peak进行比较,根据一定标准筛选,得到统计学显著的差异peak。

鉴定得到差异peak后,再利用R包ChIPseeker对得到的差异peak进行注释、分布统计,利用软件HOMER进行motif鉴定等分析。

四、染色质免疫共沉淀测序实验成功的关键问题

(1)抗体质量

ChIP-seq是基于抗体的免疫沉淀实验,因此它的数据质量好坏直接取决于抗体的质量和特异性。

另外,针对同一蛋白的不同抗体,可能会识别不同的表位(尤其是单克隆抗体)。因此建议针对同一感兴趣蛋白测试不同的抗体,通过Western blot检测knock-down前后的差异帮助选择。

(2) 测序数据量

为了捕获所有真实的结合位点,而我们看不见摸不着,只能通过测序的reads去计算来帮助判断,因此测序reads的数量是一个决定因素。

需要多少reads呢?

这个取决于基因组的大小和感兴趣因子的结合方式(sharp regions for TFs and broad regions for histone marks)。哺乳动物中,鉴定TFs至少要满足10-20M,broad histone marks至少要10-45M,input对照要和ChIP样本保持同样测序深度。reads数量还取决于抗体质量和免疫沉淀的效率。信噪比越高,需要的reads数可以适当减少。

(3)生物学重复

样本重复可以看到实验设计的好坏,选择相关性高的样本进行后续分析

推荐三个生物重复,但两个现在也能接受(最粗略的实验设计就是:每个ChIP样本2个重复,input只有一个没有重复)

如果样本间的本质差异越大,越需要设置重复,例如从不同人取的样本。

五、染色质免疫共沉淀测序项目文章参考案例

(一)组蛋白修饰ChIP-seq

Huang Y,et al.JMJD3 acts in tandem with KLF4 to facilitate reprogramming to

pluripotency. Nat Commun. 2020 Oct 8;11(1):5061. ChIP-seq揭示H3K27me3去甲基化酶在体细胞重编程调控转录机制

①  背景

作为个体发育和干细胞分化中最重要的组蛋白修饰之一,H3K27me3标记发育分化基因并抑制其表达,在基因组水平H3K27me3的动态变化是发育和分化得以有序进行的重要基础。体细胞重编程是发育和分化的逆向过程,H3K27me3势必经历逆向的时空变化。

② 方法

将小鼠饲养在病原体的环境中,12小时光照/黑暗循环,温度保持22-24°C,相对湿度40–70%,吸入二氧化碳进行安乐死,提取样本对体细胞重编程,进行RNA-seq、ATAC-seq和ChIP-seq等测序分析。

③   结论

作者通过对小鼠体细胞重编程过程中进行转录组和ChIP-seq等测序分析,揭示了H3K27me3去甲基化酶JMJD3与KLF4在体细胞重编程中协同调控转录新机制。首先,JMJD3对重编程有2方面相反的作用;在机制上,JMJD3被KLF4特异性地招募至上皮和多能性基因位点,并辅助KLF4激活这些基因。进一步,作者还在多种其他KLF4介导的细胞命运转变中验证了JMJD3的这一作用模式。

图:重编程过程中JMJD3与KLF4协同作用

(二)转录因子ChIP-seq

Schlafen 5 suppresses human immunodeficiency virus type 1 transcription by commandeering

cellular epigenetic machinery. ChIP-seq揭示HIV-1感染细胞转录抑制因子Schlafen 5的表观遗传调控机制

①   背景

Schlafen-5(SLFN5)是一种干扰素诱导的Schlafen家族蛋白,参与免疫反应和肿瘤发生。然而目前对其抗HIV-1(human immunodeficiency virus type 1 transcription)功能知之甚少。

②  方法

③ 结论

在本研究中,作者鉴定出SLFN5的过表达抑制了HIV-1的复制并降低病毒mRNA水平,而内源性SLFN5缺失则促进HIV-1复制。此外,染色质免疫沉淀 (ChIP-seq+ChIP-qPCR)检测结果表明SLFN5通过与U5-R区域的两个序列结合,显著降低HIV-1长末端重复序列(LTR)的转录活性,从而抑制RNA聚合酶II(RNA PoL II)向转录起始位点募集。诱变研究验证了核定位序列和N-末端1-570氨基酸片段在抑制HIV-1中的重要性。进一步机制研究表明,SLFN5与PRC2复合物、G9a和组蛋白H3的成分互作,从而促进H3K27me2和H3K27me3修饰,导致HIV-1转录沉默。且SLFN5阻断了潜伏期HIV-1激活。总之,本研究结果表明,SLFN5是通过表观遗传调控的HIV-1转录抑制因子,是HIV-1潜伏期的潜在决定因素。

图形摘要:SLFN5抑制HIV-1 LTR转录模型

以上就是关于染色质免疫共沉淀测序(ChIP-seq)实验流程和分析思路的介绍,你学会了吗?

参考文献:

[1]Zhang Y, Liu T, Meyer CA, Eeckhoute J, Johnson DS, Bernstein BE, Nusbaum C,Myers RM, Brown M, Li W, Liu XS. Model-based analysis of ChIP-Seq (MACS).Genome Biol. 2008;9(9):R137.

[2]Orlando V, Strutt H, Paro R. Analysis of chromatin structure by in vivoformaldehyde cross-linking. Methods. 1997 Feb;11(2):205-14.

[3]Shang Y, Hu X, DiRenzo J, Lazar MA, Brown M. Cofactor dynamics and sufficiencyin estrogen receptor-regulated transcription. Cell. 2000 Dec 8;103(6):843-52.

[4]Zhang Y, Liu T, Meyer CA, et al. Model-based analysis of ChIP-Seq (MACS).Genome Biol. 2008;9(9):R137. doi:10.1186/gb-2008-9-9-r137.

[5]Yu G, Wang LG, He QY. ChIPseeker: an R/Bioconductor package for ChIP peakannotation, comparison and visualization. Bioinformatics. 2015 Jul15;31(14):2382-3.

[6]Yu G, Wang LG, Han Y, He QY. clusterProfiler: an R package for comparingbiological themes among gene clusters. OMICS. 2012;16(5):284-287.doi:10.1089/omi.2011.0118.

[7] Ashburner M, Ball CA,et al,Gene ontology: tool for the unification of biology. Nat Genet. 2000May;25(1):25-9.

[8] Huang Y,et al.JMJD3 actsin tandem with KLF4 to facilitate reprogramming to pluripotency. Nat Commun.2020 Oct 8;11(1):5061.

[9]JiweiDing, et al. Schlafen 5 suppresses human immunodeficiency virus type 1transcription by commandeering cellular epigenetic machinery,Nucleic Acids Research, Volume 50, Issue 11, 24 June2022, Pages 6137–6153.

想要了解更多关于ChIP-seq相关知识的老师,可以留言私信~后期我们会写出来分享哦~

上一篇下一篇

猜你喜欢

热点阅读