exomePeak2 使用笔记之自建 BSgenome Obje

2021-01-14 本文已影响0人 AZhanluang

exomePeak2 使用笔记之自建 BSgenome Object

最近需要使用 exomePeak2 这个包来对玉米的 RNA-seq 和 RIP-seq 数据进行 peak calling，但其中的 bsgenome 参数需要导入对应物种的 BSgenome object，所以需要自主构建参考基因组的 BSgenome data package。

BSgenome 数据包

BSgenome 数据包是基于 Biostrings 构建的全基因组数据序列数据包。BSgenome 数据包中包含物种的数据并且具有相似的数据结构，可以用统一的方式进行处理，由 BSgenome 软件包提供。

首先安装 BSgenome 包。

if (!requireNamespace("BiocManager", quietly = TRUE))

install.packages("BiocManager")

BiocManager::install("BSgenome")

然后导入包，并查看官方已有的 BSgenome 数据包

library(BSgenome)

ag <- available.genomes()

但当前版本中没有玉米的数据包，所以需要自己构建。

1. 构建玉米的 BSgenome 数据包

1) 首先将 fa 文件转换为 2bit 文件。此时需要用到 faToTwoBit。

faToTwoBit zmB73.fa zmB73.2bit

2) 提取玉米的染色体名称

less -S zmB73.fa | grep ">" |awk '{print $1}' | sed 's/^>//g' > zmB73.chromName.txt

3) 书写玉米的 seed 文件 ZmaysZm4_seed。此处我使用的参考基因组版本是 Zea Mays RefGen_v4 （AGPv4）。

根据 BSgenome 的参考文件 https://www.bioconductor.org/packages/devel/bioc/vignettes/BSgenome/inst/doc/BSgenomeForge.pdf 第二章： 2.2 Prepare the BSgenome data package seed file 提示编写。

Package: BSgenome.Zmays.Ensemble.zmv4

Title: Genome sequences for Zea mays (Ensemble AGPv4)

Description: A BSgenome package containing the full genome sequences for Zea mays (Maize) as provided by Ensemble (B73 AGPv4, Sept. 2020) and stored in Biostrings objects.

Version: 1.0

organism: Zea mays

common_name: Maize

provider: Ensemble

provider_version: zmv4

release_date: Sept. 2020

release_name: Maize Genome Sequencing B73 RefGen_v4.0

#source_url: ftp://ftp.ensemblgenomes.org/pub/plants/release-49/fasta/zea_mays/dna/

circ_seqs: c("Mt","Pt")

organism_biocview: Zea_mays

BSgenomeObjname: Zmays

seqs_srcdir: /data/zhanmin/preparation/index/

seqfiles_suffix: .fa

seqnames: seqnames1 # or you can use the R code directly: as.character(read.table(" zmB73.chromName.txt ")$V1)

seqfile_name: zmB73.2bit

4) 在 R 中构建 R 包

library(rtracklayer)

library(BSgenome)

## import the sequence names of maize

## If you already use the R code in seed file to read the sequence names, this part code is not necessary.

seqnames=read.table("zmB73.chromName.txt")

seqnames1=as.character(seqnames$V1)

# import seed file

zmB73_seed="BSgenome.Zmays.Ensemble.zm4-seed"

# make the BSgenome data package for maize. seqs_srcdir: the dirctory of sequence file; destdir: the directory of output

forgeBSgenomeDataPkg(zmB73_seed, seqs_srcdir=getwd(), destdir=getwd(), verbose=TRUE)

运行完毕后会在指定目录或工作目录中产生输出文件夹：BSgenome.Zmays.Ensemble.zmv4

2. 在 linux 中构建 R 包

1）使用 build 命令构建 R 包

R CMD build BSgenome.Zmays.Ensemble.zmv4 #运行后会产生相应的 tar.gz 压缩文件

此时发生报错：

ERROR

cannot change to directory ‘BSgenome.Zmays.Ensemble.zmv4’

(python3.7) user@amax:/data/user/preparation/index/BSgenome.Zmays.Ensemble.zmv4$ cd ..

(python3.7) user@amax:/data/user/preparation/index$ R CMD build BSgenome.Zmays.Ensemble.zmv4

* checking for file ‘BSgenome.Zmays.Ensemble.zmv4/DESCRIPTION’ ... OK

* preparing ‘BSgenome.Zmays.Ensemble.zmv4’:

* checking DESCRIPTION meta-information ... ERROR

Malformed package version.

See section 'The DESCRIPTION file' in the 'Writing R Extensions'

manual.

根据提示查阅 Writing R Extensions 文档的 The DESCRIPTION file 章节，并对比自己的 description 文件。

发现是 Version 这个参数写错了，规定的范围值应该是 0.5-1，但这里我自己的文档写了 41。这里应该直接从 seed 文件修改。

先把 seed 文件的 Version 改为 1.0，然后重复 1. 4的步骤，重新构建 R 包。再次执行 R CMD build 命令，此时就成功了。

2）用 check 命令查看是否产生 tar.gz 压缩文件

R CMD check BSgenome.Zmays.Ensemble.zmv4_1.0.tar.gz

3）导入 R 包

R CMD INSTALL BSgenome.Zmays.Ensemble.zmv4_1.0.tar.gz

exomePeak2 进行 peak calling

1. 导入所需要的 R 包

没有的包需要先用 BioManager::install() 命令安装。

library(AnnotationHub) # help to build the annotation object

library(biomaRt)

library(GenomicFeatures)

library(exomePeak2)

library(rtracklayer)

library(BSgenome)

library(BSgenome.Zmays.Ensemble.zmv4) # import the Maize BSgenome data pacakage

构建玉米的 TxDb object 数据。

maize_txdb<- makeTxDbFromBiomart(biomart = "plants_mart",dataset = "zmays_eg_gene",host = "http://plants.ensembl.org")

saveDb(maize_txdb, file="maize_v4.sqlite")

maize_txdb <- loadDb("maize_v4.sqlite")

运行 exomePeak2 函数

exomePeak2(bam_ip = c("IP_1.bam","IP_2.bam"),

bam_input = c("Input_1.bam","Input_2.bam"),

txdb = maize_txdb,

bsgenome = BSgenome.Zmays.Ensemble.zmv4,

paired_end = TRUE)

过程大概需要几个小时，视数据大小而定。结束后会自动生成输出文件夹 exomePeak2_output，也可通过参数 save_dir = "exomePeak2_output" 指定文件路径。