获取CpG Islands记录文件的4种方式
不只是CpG Islands坐标的下载,所有的genomic features都是可以这样。
一般是gtf文件或者bed文件,比如人类hg19上面的所有外显子的坐标记录文件,所有基因的坐标记录文件,所有lncRNA,rRNA等等,我这里拿CpG Islands记录文件下载的4种方式举例子给大家说明一下。
UCSC下载
最简单的首推UCSC的table browser(https://genome-euro.ucsc.edu/cgi-bin/hgTables),而且以BED格式文件格式输出(是普通的文本数据)。下面是一个简单的实例,获取mm10的 CpG island 的坐标记录文件,根据你的需求,实时创建一个文件:
3如果你足够聪明的话,应该明白,上面的选项任意组合,是可以现在各种记录文件的,包括基因的坐标,外显子的坐标,转录本的坐标,等等。
FTP下载
然后就是直接去ftp网站里面寻找文件下载, http://hgdownload.soe.ucsc.edu/downloads.html. Click on "Human" then "Annotation Database", and finally "cpgIslandExt.txt.gz" 其实就是修改url即可:
http://hgdownload.soe.ucsc.edu/goldenPath/mm10/database/
http://hgdownload.soe.ucsc.edu/goldenPath/mm9/database/
http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/
在里面搜索文件即可,可以看到,两种方法下载的数据是一样的,而且mouse已知的cpgIsland,要比人类少很多,应该是mouse的研究不够透彻。
当然ensembl数据库的biomart界面也可以做同样的事情,
R包转换
强烈推荐R里面的genomic features相关的包,非常好学,学完了受益无穷!~~
biomart还有一个biomaRt的R包可以做到,但是这里讲解的是genomic features相关的包。本质上,就是理解TxDb和GenomicRanges对象而已,代码如下:
library(TxDb.Mmusculus.UCSC.mm10.knownGene)
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
library(EnsDb.Hsapiens.v75)
library(EnsDb.Mmusculus.v79)
ls('package:EnsDb.Mmusculus.v79')
library(BSgenome.Hsapiens.UCSC.hg19.masked)
library(BSgenome.Hsapiens.UCSC.hg19)
library(EnsDb.Hsapiens.v75)
annoData <- genes(EnsDb.Mmusculus.v79)
annoData[1:2];length(annoData)
ranges(annoData[1:2])
txdb <- TxDb.Mmusculus.UCSC.mm10.knownGene
txdb_dump <- as.list(txdb)
txdb_dump$genes
subtract 2000bp and add 2000 to the CpG island region to get CpG shore regions