如何进行DNA甲基化的研究
实名制感谢韩医生在DNA甲基化的知识点上对我熏陶。
甲基化的研究,总的来说大致可以分为三大类:
1.DNA甲基化,这一类是研究最多,修饰也最为稳定的类型;
2.组蛋白的甲基化修饰,以及乙酰化
3.RNA甲基化的修饰,虽然RNA的修饰有100多种,但主要以A碱基上的6mA甲基化修饰为主。
那么,什么是DNA甲基化修饰呢?简单的讲,就是在DNA上胞嘧啶发生了一个甲基基团的修饰,看图。
因此,提到DNA甲基化的时候,我们也会说5mC甲基化。别看这只是一个小小的改变,它所起到的作用却是巨大的!有些科学家甚至将DNA甲基化叫做“第五种碱基”!
DNA甲基化的作用
那么第二个问题就来了,这有什么作用呢?
简单来说,DNA甲基化可以调控基因的表达。以高等动物为例,每个个体从一个受精卵发育成成体的过程中,DNA甲基化都是不同的,会调控不同的细胞往不同的方向分化。比如,哪些细胞群变成大脑,哪些变成心脏,都和它有着密切的关系。
另外一个方面,当我们长大了,如在抑癌基因上某个区域的甲基化升高,就会导致基因的表达降低,进一步就会诱发癌症风险,反之,如果在致癌基因调控趋于的DNA甲基化变低,也有可能导致癌症等各种疾病的发生。
在人以及各种哺乳动物中,很多C和G连续的碱基上会发生DNA甲基化,而与C相邻的其他碱基则不会,这种现象与DNA甲基化修饰酶有一定的关系。
在人的基因组上,有很多CG碱基聚集的地方,我们称之为CpG岛,这个地方往往是低甲基化的,如果甲基化发生了改变,就会导致后面的基因无法表达,进而就会有一系列问题了。所以在大量的文献中,CpG岛的甲基化修饰一直是研究重点。
现在又有了CpG 海岸的概念。什么意思呢?就是科学家们发现,除了CpG岛会出问题,岛旁边的位置也很容易发生改变!
在很多研究中,大家都会关心DNA甲基化是不是导致基因表达变化了,而很多转录起始位置附近也会有CpG岛,所以我们也常常会把研究的焦点集中于转录起始位置的启动子区域。
除了发现DNA甲基化会调控基因表达,也有发现表明,外显子和内含子的DNA甲基化异常也会导致不同的可变剪切,这个也是一个重要的研究内容。
研究方法与技术手段
知道了DNA甲基化的作用,那研究DNA甲基化的技术手段有哪些?
简单的说,可以分为两大类。
一类是IP类的,代表作就是DNA甲基化免疫共沉淀技术(MeDIP-seq),当然还有专门富集CpG的MBD技术,不过研究的不多。IP类技术的分析DNA和RNA的分析技术类似。
另外一类叫重亚硫酸盐处理技术。Bisulfite技术本身非常简单,就是把没有甲基化的C变成了T,不过其延伸出来的技术种类五花八门,比如:
全基因组DNA甲基化技术(WGBS)
酶切全基因组甲基化技术(RRBS)
双酶切技术
启动子液相捕获DNA甲基化芯片技术(LHC-BS)
精确DNA甲基化技术(oxBS)
另外,这里要重点说一下精确DNA甲基化技术。什么是精确?比如,在动物体内,DNA甲基化是一个动态变化的过程,不仅有DNA甲基化过程,也有TET酶参与的去甲基化过程。在去甲基化的过程中,甲基基团首先会被氧化成羟基,这个羟基在后续会进一步被氧化成醛基、羧基,然后就变成无官一身轻的胞嘧啶了。
重亚硫酸酸盐处理以后,醛基修饰的胞嘧啶,羧基修饰的C,还有没有甲基化的C全部都会变成胸腺嘧啶T。传统的bisulfite技术是无法区分甲基化和羟甲基化的,而精确DNA甲基化技术是通过某种重金属,把羟基给氧化了,这样后续处理的时候,也会变成T,而剩下的就只有甲基化胞嘧啶C了。所以通过这个技术,可以将羟甲基化单独拎出来研究。
目前,比较成熟的氧化甲基化技术(oxBS)是由CEGX公司推出的,该技术可以稳定的将羟甲基化修饰给氧化掉,最终经过bisulfite转化成T。
说完了技术手段,接下来我们讨论一下各种技术的优劣式。
先说准确性。现在研究DNA甲基化,最准确的自然是重亚硫酸盐处理,这种手段可以精确的看到每个胞嘧啶位点上的甲基化修饰情况。对于经费充足的实验室,重亚硫酸盐处理技术中的WGBS技术是首选,此技术可以覆盖全基因组,一般要求30X,比如人的基因组差不多需要90G的数据量。考虑到测序成本,此技术更适合经费充足的实验室。
WGBS技术也适合某些做植物研究的实验室,比如,像黄瓜等基因组很小的物种(只有几百M),测序成本很低,就没有必要采用其他技术来做了。对于基因组大的植物物种,可以考虑用MeDIP,或者双酶切RRBS评估一下,是否可行。
对于精度要求更高的,比如只研究精确的DNA甲基化的修饰情况,或者是想研究羟甲基化的修饰情况,oxWGBS是首选,它的成本也相对比较高。此类技术的应用限制,现阶段来说就是测序成本较高。
其他研究定量甲基化的技术,都是只研究基因组上一部分的甲基化的修饰情况,代表技术有RRBS(基于酶切),LHC-BS(基于液相捕获),以及现在临床应用比较多的850k/450k甲基化芯片。
RRBS和LHC-BS是基于测序技术,研究的CpG位点数大概都是在2M左右,也是基于测序技术研究大规模样品常用的工具之一,数据量一般8-10G。
RRBS研究的区域是全基因组上的酶切位点,如RSPI酶的CCGG位点等。不过此类技术在现有读长PE150的背景下会浪费很多数据(因为有效的酶切区域片段为40-220,现有测序技术会被测通,从而导致大量数据被浪费)。
而LHC-BS的优势在于可以覆盖基因组上绝大多数的启动子区域(95%),全部的CG岛和CpG shore区域,但是对实验操作者的水平要求较高,一般捕获效率在50%-60%。此条件下,8G的数据量,在人的样品中目标区域60M,可得到的实际深度为50~60X,和BS技术对比吻合度也比较好,对现阶段大规模DNA甲基化样品研究而言,还是一个值得选择的工具了。
再有就是450k甲基化芯片和850k甲基化芯片,这两款芯片是基于荧光定量来鉴定DNA甲基化的,和测序的结果吻合度也较好,但问题在于检测位点数太少,且现阶段的成本也不便宜,与RRBS和LHC-BS相比成本也低不了太多。
看图,直观地展示一下这几种技术在各基因元件上的覆盖情况。
参考资料:
1.https://www.jianshu.com/p/74a0b19c0863
2.https://www.jianshu.com/p/ac00b8df4ce0
3.https://mp.weixin.qq.com/s__biz=MzI3MTM3OTExNQ==&mid=2247484677&idx=1&sn=991ebb150540fab07438e4866716d64d&chksm=eac3fac1ddb473d7fe28006defe02faa3111dacdf5c4fbdef7c77fc807910d52868216f0b9a0&scene=21#wechat_redirect