R package:RIdeogram (二)DIY一个染色体基
2020-04-22 本文已影响0人
佳名
R package:RIdeogram (一)
RIdeogram可以将基因组上的数据标记可视化,需要3个文件:1、染色体核型文件,如这个包带的human_karyotype数据集;2、染色体基因密度文件,如这个包带的gene_density数据集;3,自己的数据,如这个包自带的Random_RNAs_500数据集。
遗憾的是,这个包只带了人的基因密度数据集,对于其他的物种,需要自己使用GFFex函数制作。
自己制作基因密度数据集,还需要两个文件,一个是核型文件;另一个是GFF3格式的基因注释文件。以小鼠为例:
1. 基因注释文件
2. 核型文件
首先看看这个包给的示例的核型文件:
data(human_karyotype, package="RIdeogram")
head(human_karyotype)
# Chr Start End CE_start CE_end
#1 1 0 248956422 122026459 124932724
#2 2 0 242193529 92188145 94090557
#3 3 0 198295559 90772458 93655574
#4 4 0 190214555 49712061 51743951
#5 5 0 181538259 46485900 50059807
#6 6 0 170805979 58553888 59829934
这里一个24*5的数据集,第一列,染色体ID;第2列和第3例,染色体的长度;第4列和第5列,染色体着丝粒启始位置。
那我们就用excel自己制作一个小鼠染色体核型的数据集,每条染色体长度来源于http://asia.ensembl.org/Mus_musculus/Location/Genome,但是我没有找到着丝粒位置,所以只有3列。编辑好以后,另存为mmu_karyotype.txt。
3. GFFex函数
gene_density <- GFFex(input = "gencode.vM24.basic.annotation.gff3.gz",
karyotype = "mmu_karyotype.txt",
feature = "gene", window = 1000000)
得到染色体基因密度数据集后,先画个图试试。
mmu_karyotype <- read.table("mmu_karyotype.txt",
sep = "\t", header = T,
stringsAsFactors = F)
ideogram(karyotype = mmu_karyotype, overlaid = gene_density)
convertSVG("chromosome.svg", device = "png")
Fig2.png
由于染色体核型文件中没有着丝粒信息,所以上图看不到着丝粒位置。
4. 保存
write.table(gene_density,"mmu_gene_density.txt",sep = "\t",row.names = F)
保存的mmu_gene_density.txt文件,接下来就可以继续使用了。