生信入门参考资料

获取CpG Islands记录文件的4种方式

2018-01-23  本文已影响48人  因地制宜的生信达人

不只是CpG Islands坐标的下载,所有的genomic features都是可以这样。

一般是gtf文件或者bed文件,比如人类hg19上面的所有外显子的坐标记录文件,所有基因的坐标记录文件,所有lncRNA,rRNA等等,我这里拿CpG Islands记录文件下载的4种方式举例子给大家说明一下。

UCSC下载

最简单的首推UCSC的table browser(https://genome-euro.ucsc.edu/cgi-bin/hgTables),而且以BED格式文件格式输出(是普通的文本数据)。下面是一个简单的实例,获取mm10的 CpG island 的坐标记录文件,根据你的需求,实时创建一个文件:

3

如果你足够聪明的话,应该明白,上面的选项任意组合,是可以现在各种记录文件的,包括基因的坐标,外显子的坐标,转录本的坐标,等等。

FTP下载

然后就是直接去ftp网站里面寻找文件下载, http://hgdownload.soe.ucsc.edu/downloads.html. Click on "Human" then "Annotation Database", and finally "cpgIslandExt.txt.gz" 其实就是修改url即可:

http://hgdownload.soe.ucsc.edu/goldenPath/mm10/database/
http://hgdownload.soe.ucsc.edu/goldenPath/mm9/database/
http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/

在里面搜索文件即可,可以看到,两种方法下载的数据是一样的,而且mouse已知的cpgIsland,要比人类少很多,应该是mouse的研究不够透彻。

当然ensembl数据库的biomart界面也可以做同样的事情,

R包转换

强烈推荐R里面的genomic features相关的包,非常好学,学完了受益无穷!~~

biomart还有一个biomaRt的R包可以做到,但是这里讲解的是genomic features相关的包。本质上,就是理解TxDb和GenomicRanges对象而已,代码如下:

library(TxDb.Mmusculus.UCSC.mm10.knownGene)
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
library(EnsDb.Hsapiens.v75)
library(EnsDb.Mmusculus.v79)
ls('package:EnsDb.Mmusculus.v79')
library(BSgenome.Hsapiens.UCSC.hg19.masked)
library(BSgenome.Hsapiens.UCSC.hg19)
library(EnsDb.Hsapiens.v75)
annoData <- genes(EnsDb.Mmusculus.v79)
annoData[1:2];length(annoData)
ranges(annoData[1:2])
txdb <- TxDb.Mmusculus.UCSC.mm10.knownGene
txdb_dump <- as.list(txdb)
txdb_dump$genes

subtract 2000bp and add 2000 to the CpG island region to get CpG shore regions

上一篇下一篇

猜你喜欢

热点阅读