如何获取450k甲基化芯片的注释信息

2022-11-16  本文已影响0人  生信交流平台

前面小编给大家介绍过

如何从TCGA数据库下载DNA甲基化数据

R代码合并TCGA数据库中DNA甲基化数据

合并好的矩阵如下,每一行是一个CpG位点,每一列是一个样本。数值就是特定的CpG位点在相应样本里的甲基化水平。


有粉丝询问,如何将CpG位点跟基因名字对应起来。今天小编就带大家来获取illumina 450K甲基化芯片的注释文件。

首先我们来了解一下CpG位点跟基因的关系。如下图所示,可以将基因的区域分成,TSS1500,TSS200,5‘UTR,1st exon, gene body和3’UTR。TSS是transcription start site,即转录起始位点。那么TSS1500就是转录起始位点上有1500bp。UTR相信大家都不陌生,就是untranslated regions,转录但是不翻译的区域。1st exon就是第一号外显子,gene body就是CDs区域,即coding region。在基因示意图的下面,有CpG位点的分类。分为CpG island(CpG岛),CpG岛上游2kb为N shore,上游2kb-4kb为N shelf,同理下游2kb为S shore,下游2kb-4kb为S shelf。


既然450k甲基化芯片是illumina一款成熟的商业化芯片,那么我们就应该可以从illumina的官网上找到这款芯片的注释信息。下面是相关的产品信息

https://support.illumina.com/downloads/infinium_humanmethylation450_product_files.html

下面红框中的文件就是我们需要下载的文件


下载到本地之后,可以用Excel打开。


可以看到每一行是一个CpG位点,UCSC_RefGene_Name列就是CpG位点对应的基因。CpG位点跟基因的具体关系在UCSC_RefGene_Group列可以找到。另外这个CpG位点跟CpG岛的关系可以在Relation_to_UCSC_CpG_Island列找到。

有了这个文件之后,我们就可以对☞R代码合并TCGA数据库中DNA甲基化数据进行注释了。

上一篇下一篇

猜你喜欢

热点阅读