甲基化生信分析系列收藏生物信息学

甲基化系列 1. 甲基化之前世今生(Methylation)

2022-05-16  本文已影响0人  桓峰基因

  

  点击关注,桓峰基因


    最近刚好有点小业务做甲基化,甲基化对于我来说再熟悉不过了,因为生信入行就一直做甲基化,从植物做到动物,又从动物做到癌症,甲基化不同类型,DNA甲基化,RNA甲基化,以及组蛋白甲基化都非常熟悉,这里就先从胞嘧啶甲基化(5mC)说起,因为好多老师问GEO/TCGA的270K, 450K, 850K的数据都怎么分析,今天开始连载几篇表观遗传学相关数据的处理以及后续SCI文章内容该怎么分析等!!

表观遗传学

表观遗传学是研究基因的核苷酸序列不发生改变的情况下,基因表达的可遗传的变化的一门遗传学分支学科。表观遗传的现象很多,已知的有DNA甲基化(DNA methylation),基因组印记(genomic imprinting),母体效应(maternal effects),基因沉默(gene silencing),核仁显性,休眠转座子激活和RNA编辑(RNA editing)等。所以说表观的修饰只是改变基因的表达而不改变基因本身。

表观遗传改变主要从四个层面调控基因表达
(1)DNA甲基化:DNA共价结合甲基基团,使相同序列等位基因处于不同修饰状态;(2)组蛋白修饰:通过对结合DNA的组蛋白进行不同的化学修饰实现对基因表达的调控;
(3)染色质重塑:通过改变染色质的空间构象实现对基因表达的调控;
(4)非编码RNA的调控:RNA可通过某些机制实现对基因转录和转录后的调控。

举个例子:同卵双生的双胞胎个体,从遗传学角度说他们的DNA序列是一致的,但多种表型存在一些差异。经典的孟德尔遗传定律和生物学表型之间还存在另外一层调控因素,即表观遗传。

DNA甲基化

DNA甲基化(DNA methylation)为DNA化学修饰的一种形式,能够在不改变DNA序列的前提下,改变遗传表现。所谓DNA甲基化是指在DNA甲基化转移酶的作用下,在基因组CpG二核苷酸的胞嘧啶5号碳位共价键结合一个甲基基团。大量研究表明,DNA甲基化能引起染色质结构、DNA构象、DNA稳定性及DNA与蛋白质相互作用方式的改变,从而控制基因表达。

DNA甲基化是最早被发现、也是研究最深入的表观遗传调控机制之一。广义上的DNA甲基化是指DNA序列上特定的碱基在DNA甲基转移酶(DNA methyltransferase,DNMT)的催化作用下,以S—腺苷甲硫氨酸(S—adenosyl methionine,SAM)作为甲基供体,通过共价键结合的方式获得一个甲基基团的化学修饰过程。这种DNA甲基化修饰可以发生在胞嘧啶的C—5位、腺嘌呤的N—6位及鸟嘌呤的G—7位等位点。一般研究中所涉及的DNA甲基化主要是指发生在CpG二核苷酸中胞嘧啶上第5位碳原子的甲基化过程,其产物称为5—甲基胞嘧啶(5—mC),是植物、动物等真核生物DNA甲基化的主要形式,也是发现的哺乳动物DNA甲基化的唯一形式。DNA甲基化作为一种相对稳定的修饰状态,在DNA甲基转移酶的作用下,可随DNA的复制过程遗传给新生的子代DNA,是一种重要的表观遗传机制。

基因组中DNA的甲基化模式是通过DNA甲基转移酶实现的。DNA甲基化酶分为2类,即维持DNA甲基化转移酶(Dnmtl或维持甲基化酶)和从头甲基化酶。根据序列的同源性和功能,真核生物DNA甲基化转移酶又分为4类:Dnmtl/METl、Dnmt2、CMTs和Dn-mt3。DnmtliiMETl类酶参与CG序列甲基化的维持。CMTs类酶仅发现在植物中,主要特征是它的催化区T和Ⅳ包埋染色体的主区,并且特异性地维持CG序列的甲基化。Dnmt:3类酶在小鼠、人类和斑马鱼中得到鉴定.Dnmt3a和Dnmt3b在未分化的胚胎干细胞中高度表达,但在体细胞中表达水平很低。它们的主要作用是从头甲基化,但对维持甲基化也起到一定的作用,并且负责重复序列的甲基化。

CpG甲基化
C位点的甲基化主要发生在CpG序列上。CpG二核苷酸中的C常常被甲基化。在哺乳动物中CpG以两种形式存在:一种是分散于DNA序列;另一种呈现高度聚集,为CpG岛。在正常组织里,70%~90%分散的CpG是被甲基修饰(对维持基因族的稳定性具有重要作用),而位于基因转录调控区域CpG岛中的CpG则往往是非甲基化的(有利于转录因子和转录调控区域结合,影响下游结构基因的转录)。

CpG岛常常位于基因启动子区域以下面这个基因为例,红色竖线代表CpG位点,下面是APRT这个基因的第一外显子和第二外显子,可以看到CpG位点集中于启动子区域,第一外显子和第一内含子区域。

启动子区域CpG位点甲基化影响基因转录
以下图为例,黄色部分是CpG位点中的C位点,当其为非甲基化时,转录因子和辅助转录蛋白可以顺利地结合在转录的其实区域,从而推动下游基因的转录。
然而,当C被甲基化之后,空间结构发生了变化,转录因子和辅助转录蛋白不能结合在转录其实区域,最终造成基因转录的抑制。因此,甲基化常常通过基因的转录来调控基因的表达。

肿瘤细胞中CpG位点甲基化变化
以肿瘤细胞中CpG位点甲基化变化为例,上一张图是正常细胞,左边是肿瘤抑制基因,右边是分散的CpG位点,在正常细胞的肿瘤抑制基因中,CpG位点通常是非甲基化的,因此这些基因是可以表达的。在分散的CpG位点当中常常是甲基化的。
在下方的肿瘤细胞当中,肿瘤抑制基因CpG位点中的C常常是甲基化的,造成该基因表达沉默,但分散CpG位点中的C常常是非甲基化的。
因此,这样造成抑癌基因表达缺失,同时造成整个基因组的不稳定。

甲基化检测方法

基于芯片的甲基化检测方法

DNA 甲基化作为重要的表观遗传学的标记,能够调控基因的表达,在生长发育和疾病相关研究领域都有着重要意义。测定甲基化的手段有很多,芯片作为一种成熟的手段,其稳定性,可重复性以及性价比,使得在DNA甲基化研究领域芯片占据了半壁江山。

对于human 来说,目前主流的DNA甲基化芯片有450K 和 850K 两种,都是illumina 公司研发的。这里的 450K 和 850K 指的是芯片上探针的数量,对应可以检测的甲基化位点个数。

在GEO 数据库中,每种芯片都有对应的GPL 编号,450K 芯片的链接如下:

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL13534

850K 芯片的链接如下:

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL21145

打开上面的链接,可以看到对应芯片的详细信息,我们来看下每种芯片探针的数量

1. 450K 芯片的探针数量:Total number of rows: 485,577

2. 850K 芯片的探针数量:Total number of rows: 868,564

从具体的探针数目也可以看出, 450K 和 850K 是1个约数,用来表明探针的数量,覆盖的甲基化位点的个数。

探针是以甲基化位点为单位的,每个探针对应检测一个甲基化位点。为了能够区分甲基化位点和非甲基化位点,在450K 和 850K中,有两种类型的探针,分别叫做I 型探针和 II 型探针。示意图如下:

亚硫酸氢盐处理的DNA ,非甲基化的C会变成T , 而甲基化的C不会变。

对于I 型探针而言,有两种序列,专业名词叫做bead type, 其中Unmethylated bead type 用来和非甲基化的C杂交,Methylated bead type 用来和甲基化的C杂交。可以看到两种bead type 只有末端最后1个碱基不同,A 碱基用来杂交非甲基化的C, G碱基用来杂交甲基化的C。

ID    cg00050873AlleleA_ProbeSeq    ACAAAAAAACAACACACAACTATAATAATTTTTAAAATAAATAAACCCCAAlleleB_ProbeSeq    ACGAAAAAACAACGCACAACTATAATAATTTTTAAAATAAATAAACCCCG

对于II 型探针而言,设计得比较巧妙,它只需要1个bead  type, 探针只涉及到甲基化位点的前一个碱基,在DNA 链的延伸阶段,根据延伸的碱基是A 还是 G , 从而判断是甲基化的C 还是非甲基化的C。下面是450K 上一个II 型探针的示例:

ID    cg00035864AlleleA_ProbeSeq    AAAACACTAACAATCTTATCCACATAAACCCTTAAATTTATCTCAAATT

    下期介绍GEO/TCGA数据读取与处理,敬请期待!

本文使用 文章同步助手 同步

上一篇下一篇

猜你喜欢

热点阅读