R package：RIdeogram （二）DIY一个染色体基

2020-04-22 本文已影响0人佳名

R package：RIdeogram (一)
RIdeogram可以将基因组上的数据标记可视化，需要3个文件：1、染色体核型文件，如这个包带的human_karyotype数据集；2、染色体基因密度文件，如这个包带的gene_density数据集；3，自己的数据，如这个包自带的Random_RNAs_500数据集。
遗憾的是，这个包只带了人的基因密度数据集，对于其他的物种，需要自己使用GFFex函数制作。
自己制作基因密度数据集，还需要两个文件，一个是核型文件；另一个是GFF3格式的基因注释文件。以小鼠为例：

1. 基因注释文件

下载：ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M24/gencode.vM24.basic.annotation.gff3.gz

2. 核型文件

首先看看这个包给的示例的核型文件：

data(human_karyotype, package="RIdeogram")
head(human_karyotype)
# Chr Start       End  CE_start    CE_end
#1   1     0 248956422 122026459 124932724
#2   2     0 242193529  92188145  94090557
#3   3     0 198295559  90772458  93655574
#4   4     0 190214555  49712061  51743951
#5   5     0 181538259  46485900  50059807
#6   6     0 170805979  58553888  59829934

这里一个24*5的数据集，第一列，染色体ID；第2列和第3例，染色体的长度；第4列和第5列，染色体着丝粒启始位置。
那我们就用excel自己制作一个小鼠染色体核型的数据集，每条染色体长度来源于http://asia.ensembl.org/Mus_musculus/Location/Genome，但是我没有找到着丝粒位置，所以只有3列。编辑好以后，另存为mmu_karyotype.txt。

Fig1.PNG

3. GFFex函数

gene_density <- GFFex(input = "gencode.vM24.basic.annotation.gff3.gz", 
                      karyotype = "mmu_karyotype.txt", 
                      feature = "gene", window = 1000000)

得到染色体基因密度数据集后，先画个图试试。

mmu_karyotype <- read.table("mmu_karyotype.txt", 
                            sep = "\t", header = T, 
                            stringsAsFactors = F)
ideogram(karyotype = mmu_karyotype, overlaid = gene_density)
convertSVG("chromosome.svg", device = "png")

Fig2.png

由于染色体核型文件中没有着丝粒信息，所以上图看不到着丝粒位置。

4. 保存

write.table(gene_density,"mmu_gene_density.txt",sep = "\t",row.names = F)

保存的mmu_gene_density.txt文件，接下来就可以继续使用了。

R package：RIdeogram （二）DIY一个染色体基

1. 基因注释文件

2. 核型文件

3. GFFex函数

4. 保存

猜你喜欢

热点阅读