DNA甲基化分析--------------原理到实现(一)
DNA甲基化是表观遗传非常常见的一种表观修饰,之前写了一篇有关有意思的DNA甲基化的现象的小文章,如果有兴趣的话可以去看看:“黄金鼠饼了解一下?” --------有意思的DNA甲基化现象。
-----------------------------------------------分割线------------------------------------------------------
在后续的笔记中,我们将会实战DNA甲基化分析。有的时候要知其然还要知其所以然,才能扎根生信分析,之前我跑流程,很多时候流程跑完一遍,没有什么印象,还是什么都不会,我觉得那就等于白跑了。所以扎根基本,一点点的从原理到应用才是王道呀!
-----------------------------------------------吐槽ending-----------------------------------------------------
接下来我们先来了解几个小问题:
1:DNA甲基化的是什么?它是如何形成的?
在DNMT和SAM底物的作用下,胞嘧啶上5号碳位置加上了一个甲基,变成了5甲基胞嘧啶(可不要小看这个甲基了,非常的有用了!)
DNA甲基化的形成
图片来源:Advances in Genetics Volume 70 2010 27 - 56
http://dx.doi.org/10.1016/B978-0-12-380866-0.60002-2
2:DNA甲基化会有什么影响呢?
这个问题很大,简单的来说:DNA甲基化的影响是多方面的,DNA甲基化和基因印记,干细胞分化,肿瘤的发生发展密切相关。此外,DNA甲基化可以做为肿瘤诊断的指标marker
3:我们经常说CpG岛甲基化,什么是CpG岛?它的甲基化会对基因有什么影响呢?
1:CpG是由胞嘧啶(C)和鸟嘧组成的一个2啶(G)个核苷酸的链,当中的p是C和G之间的磷酸:
CpG岛及其甲基化情况影响基因表达
2:CpG岛就是由胞嘧啶(C)和鸟嘧啶(G)组成的串联重复序列
3:启动子区的CpG甲基化程度越高会导致基因表达沉默,甲基化程度低会使基因表达。
4:DNA甲基化mapping是如何实现的呢?
这个问题非常的大,我们先把这个问题拆分一下去理解,我们都知道全基因组上存在着甲基化和非甲基化的DNA,首先我们来思考第一个问题:
4.1:如何去区分基因组上甲基化的C和未甲基化的C?
现在已经有的比较成熟的,主流的分析技术方法是Bisulfite sequencing (BS-seq),甲基化芯片技术和富集分析。
4.1.1:Bisulfite sequencing (BS-seq)
BS转化
利用重亚硫酸盐(bisulfite)这种化学试剂,对DNA进行处理。利用这种方法,它有3个特点,第一个就是它可以把未甲基化的C变成U,然后在后续PCR扩增的时候U变成了T。第二个是甲基化的C可以保持不变。第三个是基因组上其他碱基不转化。然后对甲基化后的DNA进行全基因测序
4.1.2 甲基化芯片
甲基化芯片的原理是基于亚硫酸盐处理后的DNA序列杂交的信号探测,亚硫酸盐处理是将非甲基化的胞嘧啶变成尿嘧啶,而甲基化的胞嘧啶则保持不变,然后再将尿嘧啶转化为胸腺嘧啶(前期操作都一样)最后进行芯片杂交;对于芯片杂交来说,是要看待测的DNA序列是否可以和芯片上带有DNA探针序列匹配的情况,如果可以匹配的上的话就可以让探针发光。
Illumina的450K芯片采用两种策略:Infinium I和Infinium Ⅱ,前者有两种bead(微珠),分别是甲基化M和非甲基化U,后者则是一种bead(不区分甲基化和非甲基化)。
芯片杂交:
1):如图A:Infinium I,在未甲基化的GpC locus,U型bead尾部为A,与未甲基化CpG位点相匹配,能够成功进行单核苷酸延伸并被检测到(U型磁珠发光),而M型bead尾部为G,与未甲基化位点不能匹配,没有信号产生;在甲基化的GpC locus,M型bead能与甲基化CpG位点相匹配,单核苷酸延伸并产生信号(M型磁珠发光),而U型bead则不匹配,不产生信号。
2):如图B:Infinium Ⅱ探针则不区分M和U,探针尾部为C,配对后只加入单个碱基(ddNTP-BioT, ddNTP-DNP),然后根据荧光颜色判断加入碱基的类型,进而确定该位点是否被甲基化
3):最后,通过计算甲基化和非甲基化位点的荧光信号比例,可确定某位点的甲基化水平(Beta值=M/(M+UM))
4.1.3富集分析
举一个栗子来说:MeDIP-Seq(Methylated DNA Immunoprecipitation Sequencing)测序是基于抗体富集原理进行测序的全基因组甲基化检测技术。利用抗体可以特异性识别DNA甲基化的区域,从而把这个DNA序列拉下来然后进行分析。
MeDIP示意图
那么好,假设我们得到了甲基化的DNA序列,并且也已经测序完成了,我们也都知道已经完成的测序数据里A,T,C,G都有,那么如何去判断这个序列里面甲基化的信息呢?下一个笔记我们来了解一下比对的算法!
Reference:
1:甲基化芯片入门学习-基础知识(一)
2:甲基化DNA免疫共沉淀测序原理及简介(MeDIP-seq)
3:https://www.illumina.com.cn/techniques/microarrays/methylation-arrays.html