基因组学可视化专题生物信息可视化

R package:RIdeogram (二)DIY一个染色体基

2020-04-22  本文已影响0人  佳名

R package:RIdeogram (一)
RIdeogram可以将基因组上的数据标记可视化,需要3个文件:1、染色体核型文件,如这个包带的human_karyotype数据集;2、染色体基因密度文件,如这个包带的gene_density数据集;3,自己的数据,如这个包自带的Random_RNAs_500数据集。
遗憾的是,这个包只带了人的基因密度数据集,对于其他的物种,需要自己使用GFFex函数制作。
自己制作基因密度数据集,还需要两个文件,一个是核型文件;另一个是GFF3格式的基因注释文件。以小鼠为例:

1. 基因注释文件

下载:ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M24/gencode.vM24.basic.annotation.gff3.gz

2. 核型文件

首先看看这个包给的示例的核型文件:

data(human_karyotype, package="RIdeogram")
head(human_karyotype)
# Chr Start       End  CE_start    CE_end
#1   1     0 248956422 122026459 124932724
#2   2     0 242193529  92188145  94090557
#3   3     0 198295559  90772458  93655574
#4   4     0 190214555  49712061  51743951
#5   5     0 181538259  46485900  50059807
#6   6     0 170805979  58553888  59829934

这里一个24*5的数据集,第一列,染色体ID;第2列和第3例,染色体的长度;第4列和第5列,染色体着丝粒启始位置。
那我们就用excel自己制作一个小鼠染色体核型的数据集,每条染色体长度来源于http://asia.ensembl.org/Mus_musculus/Location/Genome,但是我没有找到着丝粒位置,所以只有3列。编辑好以后,另存为mmu_karyotype.txt。

Fig1.PNG

3. GFFex函数

gene_density <- GFFex(input = "gencode.vM24.basic.annotation.gff3.gz", 
                      karyotype = "mmu_karyotype.txt", 
                      feature = "gene", window = 1000000)

得到染色体基因密度数据集后,先画个图试试。

mmu_karyotype <- read.table("mmu_karyotype.txt", 
                            sep = "\t", header = T, 
                            stringsAsFactors = F)
ideogram(karyotype = mmu_karyotype, overlaid = gene_density)
convertSVG("chromosome.svg", device = "png")
Fig2.png

由于染色体核型文件中没有着丝粒信息,所以上图看不到着丝粒位置。

4. 保存

write.table(gene_density,"mmu_gene_density.txt",sep = "\t",row.names = F)

保存的mmu_gene_density.txt文件,接下来就可以继续使用了。

上一篇 下一篇

猜你喜欢

热点阅读